馬斯克悄然發(fā)布Grok 4.1，霸榜大模型競(jìng)技場(chǎng)所有排行榜

夢(mèng)晨 2025-11-18 15:01:25 來源：量子位

非思考模式超越了公開排行榜上所有其他模型的完整推理模式

夢(mèng)晨發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

剛剛，馬斯克發(fā)布Grok 4.1，同時(shí)霸榜大模型競(jìng)技場(chǎng)的第一和第二。

怎么做到的？

馬斯克悄然發(fā)布Grok 4.1，霸榜大模型競(jìng)技場(chǎng)所有排行榜

Grok 4.1思考模式以1483的Elo分?jǐn)?shù)穩(wěn)居榜首，領(lǐng)先非xAI模型中的最高分整整31分。

Grok 4.1非思考模式以1465分拿下第二名，超越了公開排行榜上所有其他模型的完整推理模式。

之前的Grok 4在排行榜上僅排第33位。不到半年時(shí)間，xAI就實(shí)現(xiàn)了巨大飛躍。

在大模型競(jìng)技場(chǎng)新推出的專家榜和職業(yè)榜上，Grok 4.1思考模式同樣霸榜。

專家榜中的題目預(yù)計(jì)只有各自領(lǐng)域的頂尖專家才會(huì)提出，職業(yè)榜分為八個(gè)細(xì)分：

軟件和IT服務(wù)，寫作、文學(xué)和語言，生命科學(xué)、物理科學(xué)和社會(huì)科學(xué)，娛樂、體育和媒體，商業(yè)、管理和財(cái)務(wù)運(yùn)營(yíng)，數(shù)學(xué)、法律與政府，醫(yī)療保健

Grok4.1目前只在文學(xué)榜上輸給Gemini2.5，數(shù)學(xué)榜輸給Claude4.5和o3，其他六個(gè)榜單均拿下第一。

不過由于模型剛發(fā)布，投票數(shù)還很少，等“Preliminary”標(biāo)記消失（超過一定票數(shù)）后的成績(jī)更有參考價(jià)值。

在非用戶投票的EQ-Bench情商測(cè)試中，Grok 4.1的表現(xiàn)同樣出色，超過剛發(fā)布不久的Kimi K2（但不是Thinking版本）。

EQ-Bench是一個(gè)由大語言模型評(píng)判的測(cè)試，評(píng)估主動(dòng)情商能力、理解力、洞察力、同理心和人際交往技能。

將RLHF推向前所未有的高度

Grok 4.1原來早就暗中測(cè)試了。

從11月1日起，新版模型被逐步推送越來越多的用戶，期間持續(xù)進(jìn)行盲測(cè)對(duì)比評(píng)估，64.78%的用戶更喜歡新版。

xAI官網(wǎng)給出了Grok4.1與之前版本在各個(gè)方面的回答對(duì)比。

響應(yīng)情感問題：

創(chuàng)意寫作：

xAI在技術(shù)報(bào)告中特別強(qiáng)調(diào)，Grok 4.1在創(chuàng)造性、情感性和協(xié)作性互動(dòng)方面帶來了顯著改進(jìn)。模型變得更加善于捕捉細(xì)微的意圖，對(duì)話更有吸引力，個(gè)性表現(xiàn)更加連貫，同時(shí)完全保留了前代產(chǎn)品的敏銳智能和可靠性。

為了實(shí)現(xiàn)這些提升，團(tuán)隊(duì)使用了支撐Grok 4的大規(guī)模強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施，并將其應(yīng)用于優(yōu)化模型的風(fēng)格、個(gè)性、有用性和對(duì)齊性。他們開發(fā)的新方法讓前沿智能推理模型作為獎(jiǎng)勵(lì)模型，能夠自主評(píng)估和迭代響應(yīng)。

xAI負(fù)責(zé)后訓(xùn)練的Dust Tran分享了更多細(xì)節(jié)，主要改進(jìn)在強(qiáng)化學(xué)習(xí)上，將 RLHF推向前所未有的高度。

在過去的幾個(gè)月里，我們這個(gè)由十幾人組成的團(tuán)隊(duì)利用用戶在真實(shí)對(duì)話中的偏好，以及基于強(qiáng)大推理能力進(jìn)行評(píng)分的智能體獎(jiǎng)勵(lì)模型，對(duì)強(qiáng)化學(xué)習(xí) (RL) 的算法進(jìn)行了全面改進(jìn).

此外，我們還將RL的規(guī)模擴(kuò)大了一個(gè)數(shù)量級(jí)，遠(yuǎn)超Grok 4中現(xiàn)有的類似預(yù)訓(xùn)練的規(guī)模。

Grok 4.1對(duì)不需要思維鏈推理的快速回復(fù)模式做了特別加強(qiáng)。關(guān)閉推理功能后，輸出標(biāo)記數(shù)從約2300個(gè)減少到850個(gè)。

此外Grok 4.1還重點(diǎn)改善了幻覺問題。

配備搜索工具的非推理模型可以快速給出答案，但由于推理深度受限和工具調(diào)用預(yù)算有限，很容易出現(xiàn)事實(shí)錯(cuò)誤。

在Grok 4.1的后訓(xùn)練階段，專注于減少信息檢索提示中出現(xiàn)的事實(shí)性幻覺。隨后觀察到，對(duì)于抽樣生成的信息檢索提示，幻覺發(fā)生率顯著降低。

在包含500個(gè)個(gè)人傳記問題的FActScore測(cè)試中，Grok 4.1非推理模式的成績(jī)也比前一代有明顯改善。

在更多示例中，Grok 4.1還展示出可以輸出圖文并茂的回答。

目前，Grok 4.1已經(jīng)在grok.com、X平臺(tái)以及iOS和Android應(yīng)用上向所有用戶開放，默認(rèn)以自動(dòng)模式推出，用戶也可以在模型選擇器中明確選擇Grok 4.1。

參考鏈接：
[1]https://x.ai/news/grok-4-1
[2]https://x.com/arena/status/1990530984014676155
[3]https://x.com/dustinvtran/status/1990532663258853720

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

Grok

夢(mèng)晨

馬斯克悄然發(fā)布Grok 4.1，霸榜大模型競(jìng)技場(chǎng)所有排行榜

將RLHF推向前所未有的高度

相關(guān)閱讀

Grok4全網(wǎng)玩瘋，成功通過小球編程測(cè)試，Epic創(chuàng)始人：這就是AGI

馬斯克的Grok大模型能玩了！嘴跟他本人一樣損

馬斯克突然開源Grok：3140億參數(shù)巨無霸，免費(fèi)可商用

馬斯克周末血裁xAI 500人

馬斯克突發(fā)Grok 1.5！上下文長(zhǎng)度至128k、HumanEval得分超GPT-4

馬斯克新文生圖模型閃現(xiàn)！網(wǎng)友搶時(shí)間瘋狂實(shí)測(cè)：人物生成超逼真，可算把賽博皮卡畫明白了

熱門文章

對(duì)話韓旭：雙重上市后，英才校招300萬起步

中國(guó)唯一！阿里千問斬獲全球AI頂會(huì)最佳論文

國(guó)產(chǎn)家庭機(jī)器人終于落地！連人帶床推你去上班，小五位數(shù)價(jià)格明年開賣

阿里千問開始蹬鼻子上臉了

萬卡集群要上天？中國(guó)硬核企業(yè)打造太空超算！