Murati翁荔陳丹琦公司發(fā)布首個(gè)產(chǎn)品,讓大模型微調(diào)門檻暴降
終于摘掉了“0產(chǎn)品0收入估值840億”的帽子
夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
Thinking Machines Lab發(fā)布首個(gè)產(chǎn)品:Thinker,讓模型微調(diào)變得像改Python代碼一樣簡(jiǎn)單。
也算是終于摘掉了“0產(chǎn)品0收入估值840億”的帽子。

聯(lián)合創(chuàng)始人翁荔表示:GPU價(jià)格昂貴,并且設(shè)置基礎(chǔ)設(shè)施非常復(fù)雜,使研究人員和從業(yè)者使用前沿模型進(jìn)行具有挑戰(zhàn)性,Tinker是提供高質(zhì)量的研究工具、提高研究生產(chǎn)力的第一步。

大神卡帕西直接評(píng)價(jià)這個(gè)產(chǎn)品“很酷”:
相比那種“上傳數(shù)據(jù),我們幫你訓(xùn)練”的傳統(tǒng)模式,Tinker讓研究者保留了90%的控制權(quán),主要涉及數(shù)據(jù)、損失函數(shù)和算法本身,而把那些通常不想碰的硬骨頭(基礎(chǔ)設(shè)施、LLM本身的前向/后向傳播、分布式訓(xùn)練)都包辦了。

與此同時(shí),還有消息稱Thinking Machines Lab正在嘗試“重新發(fā)明一個(gè)OpenAI”,重建OpenAI在規(guī)模變大、變的官僚主義之前的那個(gè)版本。
創(chuàng)始人Murati 表示,Thinking Machines Lab將會(huì)是一家公開分享研究成果,給研究人員更多自由的公司。

什么是Tinker
簡(jiǎn)單來說,Tinker是一個(gè)用于微調(diào)語言模型的靈活A(yù)PI。
讓研究人員能夠在實(shí)驗(yàn)中控制算法和數(shù)據(jù),同時(shí)無需擔(dān)心基礎(chǔ)設(shè)施的管理。
這符合Thinking Machines Lab的使命:讓更多人能夠研究前沿模型,并根據(jù)自身需求進(jìn)行定制。
Thinker首批主要提供Qwen3和Llama3系列模型的支持,從小模型切換到大模型,只需在Python代碼中修改一個(gè)字符串就行。

Thinker的API提供了forward_backward和sample這樣的底層訓(xùn)練步驟,同時(shí)仍自動(dòng)處理調(diào)度、擴(kuò)展和錯(cuò)誤恢復(fù)。

還使用LoRA讓多個(gè)訓(xùn)練任務(wù)共享相同的 GPU,降低成本并讓更多實(shí)驗(yàn)并行運(yùn)行。

除了云托管服務(wù)之外,他們還開源了一個(gè)Tinker Cookbook庫(kù),里面有各種現(xiàn)成的后訓(xùn)練方法實(shí)現(xiàn)。

有微軟研究員檢查了Tinker的代碼庫(kù),發(fā)現(xiàn)了更多細(xì)節(jié):
沒有用DeepSeek提出的GRPO方法,而是使用更經(jīng)典的REINFORCE算法,配合優(yōu)勢(shì)函數(shù),沒有梯度裁剪。
簡(jiǎn)單概括其梯度更新策略為:
新參數(shù) = 原參數(shù) + 學(xué)習(xí)率 × 優(yōu)勢(shì)值 × 對(duì)數(shù)概率的梯度

Tinker受到了業(yè)界的密切關(guān)注。AI基礎(chǔ)設(shè)施公司Anyscale的CEO Robert Nishihara等beta測(cè)試者表示,盡管市面上有其他微調(diào)工具,但Tinker在“抽象化和可調(diào)性之間取得了卓越的平衡”
來自普林斯頓、斯坦福、伯克利和Redwood Research的研究團(tuán)隊(duì)則已經(jīng)用Tinker搞出不少成果。

大神卡帕西還在評(píng)論中特別指出,社區(qū)還在探索微調(diào)相比直接prompt大模型的優(yōu)勢(shì)在哪。
從早期跡象看,微調(diào)不只是給大模型的輸出換個(gè)風(fēng)格,更多是縮小任務(wù)范圍。特別是當(dāng)你有訓(xùn)練樣本數(shù)量很大時(shí),與其給大模型構(gòu)建復(fù)雜的few-shot prompt,不如直接微調(diào)一個(gè)小模型專門處理特定任務(wù)。
越來越多的AI應(yīng)用變成了更大規(guī)模的流水線,其中許多大模型在流程中協(xié)作,其中一些環(huán)節(jié)適合用提示,但更多環(huán)節(jié)用微調(diào)可能會(huì)更好。
Tinker讓微調(diào)變得簡(jiǎn)單,可以在任意環(huán)節(jié)中實(shí)驗(yàn)出最佳方案。

One More Thing
Thinking Machines Lab這邊嘗試重新發(fā)明一個(gè)OpenAI。
OpenAI則正在把自己變成下一個(gè)Meta。
除了Sora 2驅(qū)動(dòng)的“AI抖音”之外,ChatGPT的APP代碼中也被扒出要搞“社交模式”。
具體來說是在“推送通知”功能中包括ChatGPT和“其他用戶”發(fā)送的消息。
“當(dāng)有人加入或離開聊天時(shí)推送通知”更意味著可能有群聊模式。

與社交模式配套的設(shè)置頭像和昵稱功能也已經(jīng)出現(xiàn)了。

也是沒想到,ChatGPT中的“Chat”也可以包括人類之間的聊天。
參考鏈接:
[1]https://thinkingmachines.ai/blog/announcing-tinker/
[2]https://x.com/lilianweng/status/1973455232341516731
[3]https://x.com/theinformation/status/1973043939667058817
[4]https://x.com/karpathy/status/1973468610917179630
[5]https://x.com/DimitrisPapail/status/1973470706135605534
[6]https://x.com/btibor91/status/1973512279141622185



