大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題
聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
好夸張……
參賽大模型全軍覆沒,通通0分。
謝賽寧等人出題,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一眾模型全都難倒。

到底是什么讓一眾領先模型一敗涂地?

LiveCodeBench Pro:一個包含來自IOI、Codeforces和ICPC的競賽級編程問題的實時基準測試。
題庫還每日更新,來預防LLMs“背題”,不得不說這太狠了(doge)。

謝賽寧雖然也參與了這項工作,但他謙虛地說自己只是個啦啦隊成員。

此前有報道稱,LLM編程現在已超越人類專家,但本次測試結果表明并非如此。
表現最佳的模型,在中等難度題上的一次通過率僅53%,難題通過率更是為0。
即使是最好的模型o4-mini-high,一旦工具調用被屏蔽,Elo也只有2100,遠低于真正大師級的2700傳奇線。

謝賽寧表示:
擊敗這個基準就像AlphaGo擊敗李世石一樣。我們還沒有達到那個水平——甚至對于有明確可驗證結果的問題也是如此。

LiveCodeBench Pro:動態題庫考驗LLMs算法邏輯深度
測試是如何構建的
該基準由一眾奧林匹克獲獎者構建,在比賽結束后立即收集每道Codeforces、ICPC和IOI題目,在互聯網上出現正確答案之前捕獲每個問題。
每日更新題庫,以減少數據污染,保證評估環境的真實性與挑戰性。
測試收錄了584道頂流競賽題,團隊手動對每個問題進行標注,標注內容包括解決每個任務所需的關鍵技能,并根據問題的認知焦點將題目分為知識密集型、邏輯密集型和觀察密集型三大類。
還將題目分為三個難度級別,這并非是人工挑選的,而是通過正態分布自動選擇。
例如,所有Codeforces問題的評分在2000分以上的都會被歸入困難等級。

模型具體表現
團隊會基于題目背后的算法思想進行分類,記錄Codeforces官方難度評級(對應Elo分數下50%的成功率),同時梳理關鍵觀察點、常見陷阱及邊緣案例,為評估提供多維度參考。
在測試過程中,團隊對模型和人類專家提交的每個解決方案,記錄其判定結果(如通過、答案錯誤、超時等),并標注根本原因(思路層面錯誤或實現層面錯誤)。
如果代碼無法通過題目自帶的樣例輸入輸出,會標記 “樣例未通過”。
結合題目分類與提交結果,對比人類專家的解題模式,分析模型在不同難度(簡單 / 中等 / 困難)、題型(知識密集型 / 邏輯密集型 / 觀察密集型)下的表現,定位模型在算法推理、樣例利用及邊緣案例處理等方面的短板。

團隊一共測試了22款大模型,并根據表現給出了完整榜單,大家可以自行查看任何一個模型在每一個問題上給出的解決方法。


同時繪制了每一個模型的評分趨勢,可供自由選擇想要了解的模型。


測試結果顯示:
模型在知識密集型和邏輯密集型問題上表現更好,擅長 “死記硬背”(如數據結構模板),但在觀察密集型問題或案例工作中表現較差,搞不定 “靈光一現” 的貪心、博弈題。

與人類相比,o3-mini 等模型在精確、無錯誤的實現方面展現出更高級的技能,但在算法設計方面遜色。
LLMs擅長實現類問題,但在需要精細算法推理和復雜案例分析的題目上表現欠佳,還常給出看似正確實則錯誤的解釋。
LLMs經常無法正確通過題目提供的示例輸入,顯示其對給定信息的利用不充分。

LLMs很大程度上依賴工具增強(如終端訪問、網絡搜索),而非自身推理能力。
團隊還增加了嘗試次數(pass@k),并發現這樣可以顯著提升LLMs在中簡單題的表現,但對難題依舊無力。
比如,通過增加o3-high模型的嘗試次數來測試其性能,但無論嘗試多少次,它仍然無法解決任何一個困難分區的題目。

啟用推理功能后,LLMs在組合數學等知識密集型題目中提升明顯,但在觀察密集型題目中提升有限。

研究員還透露,每個季度,團隊都將發布一個完全全新的評估集,保證數據的時效性。

團隊超半數成員為華人
LiveCodeBench Pro團隊由一眾奧林匹克競賽得獎者組成,其中超半數成員為華人。
該項目的主要負責人鄭子涵畢業于成都外國語學校,現于紐約大學本科在讀,曾代表紐約大學參加ICPC世界總決賽,獲得第二名。
他先后在騰訊、英偉達擔任研發實習生,今年2月份以實習生的身份進入OpenAI。

另一位負責人柴文浩于2023年在浙江大學完成本科學業,碩士就讀于華盛頓大學,今年9月將前往普林斯頓大學計算機科學專業就讀博士。
他曾于Pika Labs和微軟亞洲研究院實習,先前研究主要涉及視頻理解和生成模型。
他領導開發了MovieChat,這是第一個用于長視頻理解的超大多模態模型。
并且,他在ICLR、CVPR、ICCV等頂會期刊發表過相關研究論文。

該項目的其他參與者分別來自加州大學、普林斯頓大學等,這是一支非常年輕的隊伍。
論文地址:https://arxiv.org/abs/2506.11928
項目地址:https://github.com/GavinZhengOI/LiveCodeBench-Pro
排行榜:https://livecodebenchpro.com/
參考鏈接:
[1]https://x.com/ZihanZheng71803/status/1934780656665677928
[2]https://x.com/rohanpaul_ai/status/1934751145400111572
[3]https://x.com/sainingxie/status/1934786355969851630
— 完 —
- 又一高管棄庫克而去!蘋果UI設計負責人轉投Meta2025-12-04
- 萬卡集群要上天?中國硬核企業打造太空超算!2025-11-29
- 學生3年投稿6次被拒,于是吳恩達親手搓了個評審Agent2025-11-25
- 波士頓動力前CTO加盟DeepMind,Gemini要做機器人界的安卓2025-11-25




