Murati翁荔陳丹琦公司發(fā)布首個(gè)產(chǎn)品，讓大模型微調(diào)門檻暴降

夢(mèng)晨 2025-10-02 11:49:43 來源：量子位

終于摘掉了“0產(chǎn)品0收入估值840億”的帽子

夢(mèng)晨發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

Thinking Machines Lab發(fā)布首個(gè)產(chǎn)品：Thinker，讓模型微調(diào)變得像改Python代碼一樣簡(jiǎn)單。

也算是終于摘掉了“0產(chǎn)品0收入估值840億”的帽子。

Murati翁荔陳丹琦公司發(fā)布首個(gè)產(chǎn)品，讓大模型微調(diào)門檻暴降

聯(lián)合創(chuàng)始人翁荔表示：GPU價(jià)格昂貴，并且設(shè)置基礎(chǔ)設(shè)施非常復(fù)雜，使研究人員和從業(yè)者使用前沿模型進(jìn)行具有挑戰(zhàn)性，Tinker是提供高質(zhì)量的研究工具、提高研究生產(chǎn)力的第一步。

大神卡帕西直接評(píng)價(jià)這個(gè)產(chǎn)品“很酷”：

相比那種“上傳數(shù)據(jù)，我們幫你訓(xùn)練”的傳統(tǒng)模式，Tinker讓研究者保留了90%的控制權(quán)，主要涉及數(shù)據(jù)、損失函數(shù)和算法本身，而把那些通常不想碰的硬骨頭（基礎(chǔ)設(shè)施、LLM本身的前向/后向傳播、分布式訓(xùn)練）都包辦了。

與此同時(shí)，還有消息稱Thinking Machines Lab正在嘗試“重新發(fā)明一個(gè)OpenAI”，重建OpenAI在規(guī)模變大、變的官僚主義之前的那個(gè)版本。

創(chuàng)始人Murati 表示，Thinking Machines Lab將會(huì)是一家公開分享研究成果，給研究人員更多自由的公司。

什么是Tinker

簡(jiǎn)單來說，Tinker是一個(gè)用于微調(diào)語言模型的靈活A(yù)PI。

讓研究人員能夠在實(shí)驗(yàn)中控制算法和數(shù)據(jù)，同時(shí)無需擔(dān)心基礎(chǔ)設(shè)施的管理。

這符合Thinking Machines Lab的使命：讓更多人能夠研究前沿模型，并根據(jù)自身需求進(jìn)行定制。

Thinker首批主要提供Qwen3和Llama3系列模型的支持，從小模型切換到大模型，只需在Python代碼中修改一個(gè)字符串就行。

Thinker的API提供了forward_backward和sample這樣的底層訓(xùn)練步驟，同時(shí)仍自動(dòng)處理調(diào)度、擴(kuò)展和錯(cuò)誤恢復(fù)。

還使用LoRA讓多個(gè)訓(xùn)練任務(wù)共享相同的 GPU，降低成本并讓更多實(shí)驗(yàn)并行運(yùn)行。

除了云托管服務(wù)之外，他們還開源了一個(gè)Tinker Cookbook庫(kù)，里面有各種現(xiàn)成的后訓(xùn)練方法實(shí)現(xiàn)。

有微軟研究員檢查了Tinker的代碼庫(kù)，發(fā)現(xiàn)了更多細(xì)節(jié)：

沒有用DeepSeek提出的GRPO方法，而是使用更經(jīng)典的REINFORCE算法，配合優(yōu)勢(shì)函數(shù)，沒有梯度裁剪。

簡(jiǎn)單概括其梯度更新策略為：

新參數(shù) = 原參數(shù) + 學(xué)習(xí)率 × 優(yōu)勢(shì)值 × 對(duì)數(shù)概率的梯度

Tinker受到了業(yè)界的密切關(guān)注。AI基礎(chǔ)設(shè)施公司Anyscale的CEO Robert Nishihara等beta測(cè)試者表示，盡管市面上有其他微調(diào)工具，但Tinker在“抽象化和可調(diào)性之間取得了卓越的平衡”

來自普林斯頓、斯坦福、伯克利和Redwood Research的研究團(tuán)隊(duì)則已經(jīng)用Tinker搞出不少成果。

大神卡帕西還在評(píng)論中特別指出，社區(qū)還在探索微調(diào)相比直接prompt大模型的優(yōu)勢(shì)在哪。

從早期跡象看，微調(diào)不只是給大模型的輸出換個(gè)風(fēng)格，更多是縮小任務(wù)范圍。特別是當(dāng)你有訓(xùn)練樣本數(shù)量很大時(shí)，與其給大模型構(gòu)建復(fù)雜的few-shot prompt，不如直接微調(diào)一個(gè)小模型專門處理特定任務(wù)。

越來越多的AI應(yīng)用變成了更大規(guī)模的流水線，其中許多大模型在流程中協(xié)作，其中一些環(huán)節(jié)適合用提示，但更多環(huán)節(jié)用微調(diào)可能會(huì)更好。

Tinker讓微調(diào)變得簡(jiǎn)單，可以在任意環(huán)節(jié)中實(shí)驗(yàn)出最佳方案。

One More Thing

Thinking Machines Lab這邊嘗試重新發(fā)明一個(gè)OpenAI。

OpenAI則正在把自己變成下一個(gè)Meta。

除了Sora 2驅(qū)動(dòng)的“AI抖音”之外，ChatGPT的APP代碼中也被扒出要搞“社交模式”。

具體來說是在“推送通知”功能中包括ChatGPT和“其他用戶”發(fā)送的消息。

“當(dāng)有人加入或離開聊天時(shí)推送通知”更意味著可能有群聊模式。

與社交模式配套的設(shè)置頭像和昵稱功能也已經(jīng)出現(xiàn)了。

也是沒想到，ChatGPT中的“Chat”也可以包括人類之間的聊天。

參考鏈接：
[1]https://thinkingmachines.ai/blog/announcing-tinker/
[2]https://x.com/lilianweng/status/1973455232341516731
[3]https://x.com/theinformation/status/1973043939667058817
[4]https://x.com/karpathy/status/1973468610917179630
[5]https://x.com/DimitrisPapail/status/1973470706135605534
[6]https://x.com/btibor91/status/1973512279141622185

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

Thinking Machines Lab

夢(mèng)晨

Murati翁荔陳丹琦公司發(fā)布首個(gè)產(chǎn)品，讓大模型微調(diào)門檻暴降

什么是Tinker

One More Thing

相關(guān)閱讀

拒絕小扎15億美元offer的大佬，還是加入Meta了

她們估值840億，剛發(fā)了第一個(gè)AI成果

陳丹琦有了個(gè)公司郵箱，北大翁荔同款

老黃投了個(gè)120億美元最貴種子輪！但小錢：H20中國(guó)開賣，市值一夜暴漲1600億美元

熱門文章

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

“豆包手機(jī)”在二手市場(chǎng)價(jià)格都翻倍了……

DeepSeekV3.2技術(shù)報(bào)告還是老外看得細(xì)

谷歌新架構(gòu)突破Transformer超長(zhǎng)上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年