o3-pro通關“推箱子”,人類懷舊小游戲成了大模型新Benchmark
測評負責人還是大模型競技場顧問
克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
推箱子、俄羅斯方塊……這些人類的經典懷舊小游戲,也成大模型benchmark了。
o3-pro剛剛也挑戰了這兩款游戲,而且表現還都不錯,直接突破了benchmark上限。

具體來說,benchmark中推箱子一共就只做到了被o3-pro突破的第六關;俄羅斯方塊則是強行終止的結果,實際上o3-pro根本停不下來。
如果和前SOTA——o3比較,o3-pro的成績也是直接翻倍。

還有網友直言,比起大模型競技場,這套標準才更適合做測試大模型的基準。

經典小游戲成為新Benchmark
o3-pro挑戰的這兩個游戲,出自一套名為Lmgame的benchmark,顧名思義就是讓大模型玩游戲。
o3-pro挑戰的推箱子是從1989年的版本修改而來,在o3-pro之前,評估指標是游戲結束之前推動到目標位置的箱子總數。
不過這次o3-pro直接把所有關卡都通了,頗有種“得一百分是因為卷面只有一百分”的感覺。
但也不必擔心,測試基準會動態更新,GItHub倉庫中半個月前更新的游戲地圖還只有四關,原版游戲更是有足足50多個關卡。
而在o3-pro挑戰之前,表現最好的是o3,o4-mini緊隨其后,再然后是DeepSeek-R1的最新版本(0528)。

俄羅斯方塊的得分計算方式則是將放置的方塊數量與清除行數的10倍相加,直到游戲結束。
在o3-pro之前,表現最好的模型同樣是o3,但后面R1和o4-mini的排名和推箱子相比交換了位置。

不過在時間上,o3-pro的操作相當耗時,每走一步都要花上好幾分鐘。

另外還有網友認為,如果讓大模型編寫程序而不是直接挑戰,結果可能會更好。

除了o3-pro玩的推箱子和俄羅斯方塊,Lmgame中還包括四款游戲——2048、糖果傳奇、馬里奧兄弟和逆轉裁判。
測試過程中通過一種迭代交互循環模式進行,游戲環境會持續地向大模型提供游戲狀態,模型根據狀態生成動作,這些動作隨后在游戲環境中被執行,并根據執行結果計算獎勵,接著游戲狀態會更新以進行下一輪決策。

同時還引入了智能體框架作為輔助工具,其中包含了感知、記憶、推理等模塊;為了確保評估結果的穩定性和可比性,該模式還實施了提示標準化,以減少提示提示詞帶來的性能波動。

根據游戲的特性和規則,具體到每個游戲的評價方式也有所區別:
-
超級馬里奧兄弟:衡量標準是馬里奧在所有關卡中累積的水平移動距離(以游戲單位計算),直到失去所有三條生命或完成最終關卡為止。 -
2048:評估指標是所有合并方塊值的總和,記錄直到棋盤停滯(連續十回合沒有合并或棋盤變化)為止,取以2為底的對數后乘10即為最終分數。 -
糖果傳奇:評價標準是在固定的 50 回合內消除的糖果總數。 -
逆轉裁判:通過所有案件關卡中正確動作(例如提交證據、選擇對話)的總計數來衡量,直到犯下五次錯誤決策(即生命值用盡)為止。
不過這些游戲表現的衡量標準當中,都沒有將時間作為考量因素。
另外這套benchmark是開源的,有興趣的話也可以自己下載下來對模型進行測試。

還有網友留言說想看寶可夢的結果,團隊表示馬上安排。

說到寶可夢,Gemini一直在全網直播當中進行挑戰,并且在今年5月初成功通關了寶可夢·藍。
當時谷歌CEO劈柴哥第一時間興奮官宣,還放出了通關時刻的珍貴影像:

大模型競技場顧問課題組出品
這個項目來自UCSD的Hao AI Lab,附屬于USCD的機器學習系統實驗室和NLP實驗室,負責人是Hal?c?o?lu數據科學研究所的助理教授張昊。
張昊本碩博分別就讀于華南理工、上海交大和卡內基梅隆大學,之后到UC伯克利從事博士后研究,結束后加入UCSD。

此外張昊也參與過創立LMSYS,并擔任大模型競技場顧問。
LMSYS是一個非營利組織,大模型競技場和知名模型框架SGLang、vLLM都是由LMSYS研發的。
說回Hao AI Lab,該實驗室創立了多個開源項目,其中GitHub星標數最多的是視頻生成加速框架FastVideo,已獲得1.5k星。

Hao AI Lab還接受谷歌和英偉達的資助,今年4月英偉達給該實驗室捐贈了一臺DGX B200。

參考鏈接:
https://x.com/haoailab/status/1933614723507106226
項目倉庫:
https://github.com/lmgame-org/GamingAgent
榜單:
https://huggingface.co/spaces/lmgame/lmgame_bench
論文:
https://arxiv.org/abs/2505.15146
- 14歲華人小孩,折個紙成美國天才少年2025-12-06
- 智能體A2A落地華為新旗艦,鴻蒙開發者新機遇來了2025-12-06
- 《三體》“宇宙閃爍”成真!免佩戴裸眼3D屏登Nature2025-12-06
- ROCK & ROLL!阿里給智能體造了個實戰演練場 | 開源2025-11-26




