馬斯克悄然發(fā)布Grok 4.1,霸榜大模型競(jìng)技場(chǎng)所有排行榜
非思考模式超越了公開排行榜上所有其他模型的完整推理模式
夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
剛剛,馬斯克發(fā)布Grok 4.1,同時(shí)霸榜大模型競(jìng)技場(chǎng)的第一和第二。
怎么做到的?

Grok 4.1思考模式以1483的Elo分?jǐn)?shù)穩(wěn)居榜首,領(lǐng)先非xAI模型中的最高分整整31分。
Grok 4.1非思考模式以1465分拿下第二名,超越了公開排行榜上所有其他模型的完整推理模式。

之前的Grok 4在排行榜上僅排第33位。不到半年時(shí)間,xAI就實(shí)現(xiàn)了巨大飛躍。
在大模型競(jìng)技場(chǎng)新推出的專家榜和職業(yè)榜上,Grok 4.1思考模式同樣霸榜。

專家榜中的題目預(yù)計(jì)只有各自領(lǐng)域的頂尖專家才會(huì)提出,職業(yè)榜分為八個(gè)細(xì)分:
軟件和IT服務(wù),寫作、文學(xué)和語言,生命科學(xué)、物理科學(xué)和社會(huì)科學(xué),娛樂、體育和媒體,商業(yè)、管理和財(cái)務(wù)運(yùn)營(yíng),數(shù)學(xué)、法律與政府,醫(yī)療保健
Grok4.1目前只在文學(xué)榜上輸給Gemini2.5,數(shù)學(xué)榜輸給Claude4.5和o3,其他六個(gè)榜單均拿下第一。

不過由于模型剛發(fā)布,投票數(shù)還很少,等“Preliminary”標(biāo)記消失(超過一定票數(shù))后的成績(jī)更有參考價(jià)值。
在非用戶投票的EQ-Bench情商測(cè)試中,Grok 4.1的表現(xiàn)同樣出色,超過剛發(fā)布不久的Kimi K2(但不是Thinking版本)。
EQ-Bench是一個(gè)由大語言模型評(píng)判的測(cè)試,評(píng)估主動(dòng)情商能力、理解力、洞察力、同理心和人際交往技能。

將RLHF推向前所未有的高度
Grok 4.1原來早就暗中測(cè)試了。
從11月1日起,新版模型被逐步推送越來越多的用戶,期間持續(xù)進(jìn)行盲測(cè)對(duì)比評(píng)估,64.78%的用戶更喜歡新版。

xAI官網(wǎng)給出了Grok4.1與之前版本在各個(gè)方面的回答對(duì)比。
響應(yīng)情感問題:

創(chuàng)意寫作:

xAI在技術(shù)報(bào)告中特別強(qiáng)調(diào),Grok 4.1在創(chuàng)造性、情感性和協(xié)作性互動(dòng)方面帶來了顯著改進(jìn)。模型變得更加善于捕捉細(xì)微的意圖,對(duì)話更有吸引力,個(gè)性表現(xiàn)更加連貫,同時(shí)完全保留了前代產(chǎn)品的敏銳智能和可靠性。
為了實(shí)現(xiàn)這些提升,團(tuán)隊(duì)使用了支撐Grok 4的大規(guī)模強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施,并將其應(yīng)用于優(yōu)化模型的風(fēng)格、個(gè)性、有用性和對(duì)齊性。他們開發(fā)的新方法讓前沿智能推理模型作為獎(jiǎng)勵(lì)模型,能夠自主評(píng)估和迭代響應(yīng)。
xAI負(fù)責(zé)后訓(xùn)練的Dust Tran分享了更多細(xì)節(jié),主要改進(jìn)在強(qiáng)化學(xué)習(xí)上,將 RLHF推向前所未有的高度。
在過去的幾個(gè)月里,我們這個(gè)由十幾人組成的團(tuán)隊(duì)利用用戶在真實(shí)對(duì)話中的偏好,以及基于強(qiáng)大推理能力進(jìn)行評(píng)分的智能體獎(jiǎng)勵(lì)模型,對(duì)強(qiáng)化學(xué)習(xí) (RL) 的算法進(jìn)行了全面改進(jìn).
此外,我們還將RL的規(guī)模擴(kuò)大了一個(gè)數(shù)量級(jí),遠(yuǎn)超Grok 4中現(xiàn)有的類似預(yù)訓(xùn)練的規(guī)模。
Grok 4.1對(duì)不需要思維鏈推理的快速回復(fù)模式做了特別加強(qiáng)。關(guān)閉推理功能后,輸出標(biāo)記數(shù)從約2300個(gè)減少到850個(gè)。
此外Grok 4.1還重點(diǎn)改善了幻覺問題。
配備搜索工具的非推理模型可以快速給出答案,但由于推理深度受限和工具調(diào)用預(yù)算有限,很容易出現(xiàn)事實(shí)錯(cuò)誤。
在Grok 4.1的后訓(xùn)練階段,專注于減少信息檢索提示中出現(xiàn)的事實(shí)性幻覺。隨后觀察到,對(duì)于抽樣生成的信息檢索提示,幻覺發(fā)生率顯著降低。
在包含500個(gè)個(gè)人傳記問題的FActScore測(cè)試中,Grok 4.1非推理模式的成績(jī)也比前一代有明顯改善。

在更多示例中,Grok 4.1還展示出可以輸出圖文并茂的回答。

目前,Grok 4.1已經(jīng)在grok.com、X平臺(tái)以及iOS和Android應(yīng)用上向所有用戶開放,默認(rèn)以自動(dòng)模式推出,用戶也可以在模型選擇器中明確選擇Grok 4.1。
參考鏈接:
[1]https://x.ai/news/grok-4-1
[2]https://x.com/arena/status/1990530984014676155
[3]https://x.com/dustinvtran/status/1990532663258853720




