她們估值840億,剛發了第一個AI成果
探討大模型推理結果難復現問題
聞樂 鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
剛剛,0產出估值就已沖破120億美元的Thinking Machines,終于發布首篇研究博客。
創始人、OpenAI前CTO Mira Murati親自宣發,翁荔等一眾公司大佬紛紛轉推:

研究主題是“Defeating Nondeterminism in LLM Inference”,克服大語言模型推理中的不確定性。
主要討論的內容就是,為什么大模型每次的推理結果總是難以復現?根源在于批次不變性。

不鳴則已,一鳴就是萬字長文,并且,Thinking Machines還致敬了一波“連接主義”——
Mira和她的同事們認為,科學因分享而更加卓越。他們將保持對研究成果的分享,并與研究社區保持頻繁、開放的聯系。
而翁荔在轉發推文中,還透露了Thinking Machines的第一代旗艦產品名為Connection Machine。

(CloseAI膝蓋又中了一槍)
擊敗LLM推理中的非確定性
眾所周知,LLM推理中,想要獲取可復現結果相當困難,比如說多次向ChatGPT提出相同問題,但結果很有可能不同。
即使將采樣溫度降至0,原則上LLM會選擇概率最高的token輸出,但實際中此時不確定性仍然存在。
過去普遍認為這是因為浮點非結合性和并發執行之間的某種組合導致,即GPU在執行浮點數運算時會出現非結合性,比如(a+b)+c不一定等于a+(b+c),然后在并行操作中則根據執行順序的不同,產生不同的結果。
但其實這個說法并不完整,如果在GPU上對同一數據重復運行相同的矩陣乘法,卻可以始終獲得確定的同一結果。

于是Thinking Machine深入研究后發現,其實罪魁禍首應該是批次不變性。
首先浮點數計算存在數值差異的原因確實是浮點數非結合性。
因為浮點數本身在編碼中,是通過 “尾數×10^指數” 的形式表示,精度有限,所以當兩個不同指數的浮點數相加時,就必須調整指數并舍棄部分精度,從而導致一部分信息丟失,所以后續的相加順序不同才會產生不同的結果,使其不滿足結合律。
但浮點數為什么會以不同順序相加呢?
究其根源,是因為現在的LLM推理缺乏批次不變性,單個請求的輸出受到同一批次中請求數量的影響。
主要問題是:
- 實際部署中,服務器會隨著負載動態調整大模型推理批次的大小,而現有的內核會因批次的變化而改變矩陣乘法、RMSNorm等關鍵操作的計算順序或策略;
- 浮點運算的非結合性使不同計算順序產生微小偏差,這種偏差在Transformer多層迭代中被放大,最終導致相同輸入正在不同批次下輸出不同,破壞了推理的一致性。
要解決這一問題,那就需要讓RMSNorm、矩陣乘法、注意力機制分別具備批次不變性。

在RMSNorm中,重點就是要固定好每個批次元素的歸約順序而不受批次大小影響,則需要為每個內核分配一個批處理元素,讓每次歸約操作都能在單個核心中完成。
當批大小增大時,核心就會依次處理多個批次元素,而保持歸約策略不變;當批大小較小時,則可以自動忽略一些并行性優化措施,雖然效率可能會隨之降低,但能保障批次不變性。
而矩陣乘法在實際中也與批大小有關,所以可以通過將輸出張量拆分為2D塊,然后為每個塊分配不同的核心。

其中每個核心計算都屬于該塊的點積,再在該核心中執行歸約操作。
但要注重在批維度(M和N)過小時,可能會被迫沿著歸約維度(K)進行分割,也就是Split-K矩陣乘法,這樣做同樣會影響歸約順序,另外不同的張量核心指令也會導致結果變化。
所以更簡單的方法是為所有輸入形狀編譯統一的內核配置,避免因批大小變化切換并行策略或張量核心指令。
盡管相較于CuBLAS,這樣做可能會損失約20%的性能,但是可接受的。

而注意力機制則更加特殊,首先它需要更多的歸約維度,需要沿著特征維度和序列維度雙重歸約,一些像分塊預填充(chunked prefill)、前綴緩存(prefix caching)等推理優化也會改變序列處理方式。
所以在注意力內核執行前,首先要更新KV緩存和頁表,確保無論序列是否拆分處理(預填充或解碼階段),KV的存儲布局始終一致,從而保障歸約順序不變。

沿著KV維度拆分時,也不同于常規策略按照所需并行度均勻拆分KV維度,拆分數量隨批大小變化,而是固定每個拆分塊的大小(如固定為256),拆分數量隨KV長度自適應,確保歸約順序不依賴批大小。
研究人員也對此進行了三種不同的實驗驗證,分別是推理確定性驗證、性能驗證和真實在線策略強化學習應用驗證。
首先使用Qwen/Qwen3-235B-A22B-Instruct-2507模型,在相同條件下,判斷1000個長度為1000 token的結果差異情況。
結果發現未使用批次不變性內核時,共生成80個不同結果,前102個token完全一致,但到第103個token則開始分化。
如果使用批次不變性內核,則1000個結果完全相同,實現了確定性推理。

而在性能上,統一使用單GPU部署Qwen-3-8B模型的API服務器,并處理相同問題。
結果發現,確定性推理雖存在性能損失,但性能在可接受范圍之內,仍然具備實際應用價值。
由于訓練與推理的數值差異會導致在線策略RL變為離線策略RL,一般需要引入重要性加權等離線校正項才能穩定訓練。

所以通過比對校正前后的數據可以發現,缺乏重要性加權校正時,模型獎勵將會在訓練中途崩潰,KL散度也會大幅飆升,而校正后,訓練變得穩定,KL散度可以維持在0.001左右,偶有波動情況出現。
確定性推理則全程保持穩定,KL散度始終為0,實現了真正的在線策略RL,無需離線校正。
大佬云集的Thinking Machine
再來說說Thinking Machine這支AI夢之隊。
雖然尚未有具體模型產品產出,但是人才和資本都非常豪華,小扎只能干看著,挖也挖不到。
掌舵人Mira Murati在2016年加入OpenAI,一路晉升至CTO,主導打造了GPT-3、GPT-4等一系列關鍵技術開發。

聯合創始人及首席科學家John Schulman是PPO算法的開發者,在強化學習領域舉足輕重,還主導了ChatGPT的研發工作。

Thinking Machine的CTO則是前OpenAI副總裁Barret Zoph,主導了ChatGPT的后訓練。

聯創Andrew Tulloch曾經在Meta待了11年,后來進入OpenAI,參與了OpenAI GPT-4o到o系列,和Mira Murati創辦Thinking Machine后,面對小扎6年15億美元的天價薪酬,也絲毫不動搖

此外,公司還聘請了GPT的開山一作Alec Radford、OpenAI前首席研究官Bob McGrew擔任技術顧問。

△左Alec Radford右Bob McGrew
更有北大校友、前OpenAI安全團隊負責人翁荔加盟,可以說,這支團隊約三分之二成員都來自OpenAI。

前段時間,還有蛛絲馬跡表明清華姚班校友陳丹琦也加入了這支團隊。

融資方面,今年6月,Thinking Machines完成了20億美元的種子輪投資,由a16z領投,英偉達、Accel、ServiceNow、CISCO、AMD、Jane Street等各領域知名機構紛紛跟投。
以有史以來最大規模的種子輪融資刷新了AI圈的融資紀錄。(雖然傳聞中該公司的融資目標只有10億美元)
這輪融資完成后,這家沒模型沒產品的初創公司估值也達到了120億美元。
這次新研究發布后,翁荔還透露了第一個Thinking Machines產品名為Connection Machine,連接主義。
連接主義緣起于上世紀60年代,McCulloch和Pitts提出了人工神經元模型,如今的深度學習可以被視為連接主義的直接延續,當下人工智能中的“神經網絡”就是連接主義的實現形式。

這下網友可坐不住了:先把公司Logo發出來。

參考鏈接:
[1]https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
- 知名數學家辭職投身AI創業:老板是00后華人女生2025-12-06
- Runway Gen-4.5刷屏發布,把重量塵土和光影都做對了,網友:顛覆2025-12-02
- 靈光 “一閃”,330萬個“閃應用”已創建2025-12-02
- AI也會被DDL逼瘋!正經研究發現:壓力越大,AI越危險2025-12-01



