HLE首次突破60分！Eigen-1基于DeepSeek V3.1領(lǐng)先GPT-5

一水 2025-09-29 08:30:09 來源：量子位

三大支柱撐起60分突破

在HLE（“人類最后考試”）的專家校驗(yàn)子集上，首次有系統(tǒng)突破60分大關(guān)！

就在最近，由耶魯大學(xué)唐相儒、王昱婕，上海交通大學(xué)徐望瀚，UCLA萬冠呈，牛津大學(xué)尹榛菲，Eigen AI金帝、王瀚銳等團(tuán)隊(duì)聯(lián)合開發(fā)的Eigen-1多智能體系統(tǒng)實(shí)現(xiàn)了歷史性突破——

在HLE Bio/Chem Gold測試集上，Pass@1準(zhǔn)確率達(dá)到48.3%，Pass@5準(zhǔn)確率更是飆升至61.74%，首次跨越60分大關(guān)。這一成績遠(yuǎn)超谷歌Gemini 2.5 Pro（26.9%）、OpenAI GPT-5（22.82%）和Grok 4（30.2%）。

HLE首次突破60分！Eigen-1基于DeepSeek V3.1領(lǐng)先GPT-5

最令人振奮的是，這一成就并非依賴閉源超大模型，而是完全基于開源的DeepSeek V3.1搭建。

在這個(gè)開源底座上，研究團(tuán)隊(duì)通過疊加Monitor-based RAG（隱式知識(shí)增強(qiáng)）、HSR（分層解法修復(fù)）、QAIR（質(zhì)量感知迭代推理）三大創(chuàng)新機(jī)制，實(shí)現(xiàn)了質(zhì)的飛躍。

下面詳細(xì)展開——

技術(shù)創(chuàng)新：三大支柱撐起60分突破

當(dāng)AI開始挑戰(zhàn)人類知識(shí)的終極邊界，一場前所未有的較量正在上演。

當(dāng)大模型在MMLU、GPQA等傳統(tǒng)基準(zhǔn)上紛紛“卷到90分”時(shí)，這些測試逐漸失去了區(qū)分力。為了追蹤AI在科學(xué)推理前沿的真實(shí)進(jìn)展，Center for AI Safety與Scale AI聯(lián)合推出了“人類最后的考試”（Humanity’s Last Exam，HLE）——

涵蓋數(shù)學(xué)、自然科學(xué)、工程學(xué)、人文社科等百余領(lǐng)域共3000道博士級(jí)難題，被視為AI知識(shí)推理的終極試煉。

而HLE Bio/Chem Gold則是HLE的黃金標(biāo)準(zhǔn)子集，包含149道經(jīng)過領(lǐng)域?qū)＜胰斯徍撕图m正的題目。

相比原始HLE數(shù)據(jù)集，這個(gè)子集排除了可能存在歧義或錯(cuò)誤答案的問題，確保了標(biāo)簽的準(zhǔn)確性和可靠性，因此成為評(píng)估AI科學(xué)推理能力最可信的基準(zhǔn)。

正是在HLE Bio/Chem Gold子集上，Eigen-1系統(tǒng)首次跨越60分大關(guān)，而這背后離不開其三大創(chuàng)新機(jī)制。

1. Monitor-based RAG：告別“工具稅”的隱式檢索增強(qiáng)

傳統(tǒng)的檢索增強(qiáng)生成（RAG）系統(tǒng)就像一個(gè)頻繁暫停的視頻播放器——每次需要外部知識(shí)時(shí)，都必須中斷推理流程、構(gòu)建查詢、處理結(jié)果，再重新整合上下文。

研究團(tuán)隊(duì)將這種開銷形象地稱為“工具稅”（Tool Tax）——每次工具調(diào)用都會(huì)打斷思考流程，導(dǎo)致上下文丟失。

傳統(tǒng)RAG系統(tǒng)的“工具稅”問題在下圖的人口遺傳學(xué)案例中展現(xiàn)得淋漓盡致。左側(cè)顯示模型過度自信地使用錯(cuò)誤公式，右側(cè)則展示了即使通過顯式RAG獲得正確公式，推理流程的中斷導(dǎo)致模型無法將知識(shí)重新整合到原始問題中。

Eigen-1的Monitor-based RAG徹底改變了這一范式：

隱式監(jiān)控：Monitor持續(xù)監(jiān)測推理流中的不確定性，像一位細(xì)心的助手，在后臺(tái)默默關(guān)注著每一個(gè)可能需要幫助的時(shí)刻。掃描推理軌跡以便在不確定時(shí)觸發(fā)RAG。
精準(zhǔn)查詢：Querier在檢測到不確定性時(shí)，精準(zhǔn)提取最小關(guān)鍵詞集合，避免搜索空間的不必要擴(kuò)展。
無縫注入：Injector則將檢索到的知識(shí)無縫融入推理流，就像在對(duì)話中自然地補(bǔ)充背景信息，而不是生硬地插入引用。

實(shí)驗(yàn)數(shù)據(jù)顯示，與顯式RAG相比，Monitor-based RAG將token消耗減少53.5%，將工作流迭代次數(shù)減少43.7%，同時(shí)保持了更高的準(zhǔn)確率。

見下圖單倍型計(jì)數(shù)案例，Monitor檢測到重組約束的不確定性，Querier生成針對(duì)性查詢，Injector注入兩個(gè)關(guān)鍵事實(shí)，使模型能夠排除無效案例并得出正確的30個(gè)單倍型答案。

2. Hierarchical Solution Refinement （HSR）：從“民主投票”到“層級(jí)精煉”

除了隱式知識(shí)增強(qiáng)，Eigen-1還革新了多智能體的協(xié)作模式。

傳統(tǒng)的多智能體系統(tǒng)采用“民主投票”機(jī)制，所有候選方案被平等對(duì)待，容易“稀釋”最優(yōu)解。

而Eigen-1引入的分層解決方案精煉（HSR）打破了這種假設(shè)。HSR采用“錨點(diǎn)—修復(fù)”結(jié)構(gòu)：一個(gè)候選作為 anchor，其余作為參考依次修正，形成層次化協(xié)作。

在HSR框架下，每個(gè)候選解決方案輪流充當(dāng)“錨點(diǎn)”，其他方案則作為“參考”提供針對(duì)性修正。這種設(shè)計(jì)讓強(qiáng)方案能夠吸收弱方案的有價(jià)值見解，而不是簡單地進(jìn)行平均。

具體包括四種修復(fù)維度：邏輯補(bǔ)全（填補(bǔ)缺失的推理步驟）、數(shù)值修正（糾正計(jì)算錯(cuò)誤）、方法替換（用更優(yōu)策略替代較弱方法）、表達(dá)優(yōu)化（提升清晰度而不改變實(shí)質(zhì)）。

這種設(shè)計(jì)讓優(yōu)質(zhì)方案能吸收其他方案的有價(jià)值見解，而非簡單平均。

下圖通過一個(gè)圖像識(shí)別任務(wù)生動(dòng)展示了HSR的工作原理。

面對(duì)昆蟲識(shí)別和花朵計(jì)數(shù)的復(fù)合任務(wù)，錨點(diǎn)解決方案最初選擇了ResNet（選項(xiàng)C），但存在部署時(shí)間計(jì)算錯(cuò)誤。通過引入其他解決方案作為參考，系統(tǒng)進(jìn)行了四類針對(duì)性修正。

3. Quality-Aware Iterative Reasoning (QAIR)：質(zhì)量驅(qū)動(dòng)的迭代優(yōu)化

質(zhì)量感知迭代推理（QAIR）能根據(jù)解答質(zhì)量自適應(yīng)地調(diào)整迭代深度：高質(zhì)量解答可提前收斂，低質(zhì)量解答則觸發(fā)更多探索，從而在效率與準(zhǔn)確率之間取得平衡。

該機(jī)制為每個(gè)方案評(píng)估三個(gè)維度：邏輯性、答案正確性、解釋完整性。只有未達(dá)標(biāo)的方案才會(huì)進(jìn)入下一輪修正，避免在低質(zhì)量候選上浪費(fèi)計(jì)算資源。

全面碾壓：不止于HLE

Eigen-1的優(yōu)勢(shì)不限于HLE：

1、HLE Bio/Chem Gold（149題）

Pass@1: 48.30%（領(lǐng)先SciMaster 13.4個(gè)百分點(diǎn)）
Pass@5:?61.74%（首破60%）

2、SuperGPQA生物學(xué)（Hard版）

Pass@1: 69.57%
Pass@5: 78.26%

3、TRQA文獻(xiàn)理解

Pass@1: 54.65%
Pass@5: 79.07%

深層洞察：成功背后的規(guī)律

錯(cuò)誤模式分析

Figure 7的餅圖揭示了一個(gè)關(guān)鍵洞察：92.78%的錯(cuò)誤涉及推理過程問題，88.66%涉及知識(shí)應(yīng)用問題，且兩者存在大量重疊。

這表明科學(xué)推理的核心挑戰(zhàn)不在于單純的知識(shí)檢索或邏輯推理，而在于如何將知識(shí)與推理無縫整合。

相比之下，執(zhí)行遵循錯(cuò)誤（13.40%）和理解錯(cuò)誤（9.28%）占比較小，說明模型在指令理解和執(zhí)行層面已經(jīng)相對(duì)成熟。

組件貢獻(xiàn)的精確量化

團(tuán)隊(duì)通過增量構(gòu)建和消融實(shí)驗(yàn)精確量化了每個(gè)組件的貢獻(xiàn)。

基線系統(tǒng)在沒有任何外部知識(shí)的情況下只能達(dá)到25.3%的準(zhǔn)確率，消耗483.6K tokens。加入顯式RAG后，準(zhǔn)確率提升到41.4%，但代價(jià)是工作流步驟從43.4激增到94.8，這正是“工具稅”的直觀體現(xiàn)。

當(dāng)引入Monitor組件后，雖然準(zhǔn)確率略降至34.5%，但token消耗驟降至218.4K，工作流步驟也降至51.3。

隨著Querier和Injector的加入，準(zhǔn)確率恢復(fù)到40.3%。HSR的引入將準(zhǔn)確率提升至43.7%，最后QAIR將完整系統(tǒng)的準(zhǔn)確率推至48.3%，同時(shí)保持了高效的資源利用（218.9K tokens，53.4步驟）。

消融實(shí)驗(yàn)從另一個(gè)角度驗(yàn)證了各組件的必要性。移除Monitor導(dǎo)致token消耗激增至461.3K，工作流步驟增至95.3，顯示了隱式增強(qiáng)的巨大價(jià)值。

移除HSR或QAIR分別導(dǎo)致準(zhǔn)確率降至44.8%和43.7%，證明了層級(jí)精煉和質(zhì)量感知迭代的重要作用。

多樣性與共識(shí)的微妙平衡

作者通過散點(diǎn)圖和回歸分析揭示了一個(gè)違反直覺但極具啟發(fā)性的發(fā)現(xiàn)。

在信息檢索任務(wù)（339個(gè)樣本）中，解決方案之間的一致性與準(zhǔn)確率呈現(xiàn)較弱的正相關(guān)（斜率0.369），意味著不同的檢索路徑和視角能帶來互補(bǔ)信息，多樣性是有益的。

而在推理任務(wù)（392個(gè)樣本）中，情況完全相反——一致性與準(zhǔn)確率呈現(xiàn)強(qiáng)正相關(guān)（斜率0.851），表明當(dāng)多個(gè)推理路徑得出相同結(jié)論時(shí)，這個(gè)結(jié)論很可能是正確的。

因此，檢索型任務(wù)應(yīng)鼓勵(lì)解法多樣性與并行路線；純推理型任務(wù)應(yīng)傾向早期共識(shí)與收斂。

這一發(fā)現(xiàn)為未來智能體系統(tǒng)的任務(wù)自適應(yīng)設(shè)計(jì)提供了重要指導(dǎo)。

工具稅的精確量化

最后，作者通過對(duì)比準(zhǔn)確率提升與token減少的關(guān)系，直觀展示了隱式增強(qiáng)相對(duì)于顯式RAG的巨大優(yōu)勢(shì)。

傳統(tǒng)的基線+RAG方案雖然能提升準(zhǔn)確率，但以巨大的計(jì)算開銷為代價(jià)，在圖中表現(xiàn)為向右上方延伸（準(zhǔn)確率提升但token增加）。

而Eigen-1則位于左上象限，在大幅提升準(zhǔn)確率的同時(shí)減少了53.5%的token消耗，工作流迭代次數(shù)也從94.8步降至53.4步，減少了43.7%。這種“既要又要”的成果，正是架構(gòu)創(chuàng)新的價(jià)值所在。

意義：科學(xué)AI的新范式

Eigen-1首次突破60分的意義遠(yuǎn)超一個(gè)基準(zhǔn)測試：Eigen-1更預(yù)示著AI輔助科學(xué)研究的新范式。

當(dāng)AI能夠真正理解和推理人類知識(shí)前沿的復(fù)雜問題時(shí)，它將成為科學(xué)家的強(qiáng)大助手，加速從基礎(chǔ)研究到應(yīng)用轉(zhuǎn)化的全過程。

研究團(tuán)隊(duì)表示，未來將繼續(xù)優(yōu)化架構(gòu)設(shè)計(jì)，探索向其他科學(xué)領(lǐng)域的擴(kuò)展，并研究如何將這些技術(shù)整合到更廣泛的科學(xué)工作流中。隨著更多研究者加入這一開源生態(tài)，我們有理由期待科學(xué)AI將迎來更快速的發(fā)展。

正如團(tuán)隊(duì)所言：“HLE可能是我們需要對(duì)模型進(jìn)行的一次重要的考試，但它遠(yuǎn)非AI的最后一個(gè)基準(zhǔn)。”當(dāng)開源社區(qū)攜手推進(jìn)，人類與AI協(xié)作探索未知的新時(shí)代正在加速到來。

論文鏈接：https://arxiv.org/pdf/2509.21193v1

項(xiàng)目地址：https://github.com/tangxiangru/Eigen-1

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

Eigen-1

一水

HLE首次突破60分！Eigen-1基于DeepSeek V3.1領(lǐng)先GPT-5

技術(shù)創(chuàng)新：三大支柱撐起60分突破

全面碾壓：不止于HLE

深層洞察：成功背后的規(guī)律

錯(cuò)誤模式分析

組件貢獻(xiàn)的精確量化

多樣性與共識(shí)的微妙平衡

工具稅的精確量化

意義：科學(xué)AI的新范式

熱門文章

起底“豆包手機(jī)”：核心技術(shù)探索早已開源，GUI Agent布局近兩年，“全球首款真正的AI手機(jī)”

看完最新國產(chǎn)AI寫的公眾號(hào)文章，我慌了！

Waymo認(rèn)栽召回！搞不定校車難題，被抓到19次非法超車

共推空天領(lǐng)域智能化升級(jí)！趨境科技與金航數(shù)碼強(qiáng)強(qiáng)聯(lián)手

樂奇Rokid這一年，一路狂飆不回頭