o3-pro通關“推箱子”，人類懷舊小游戲成了大模型新Benchmark

克雷西 2025-06-17 13:09:08 來源：量子位

測評負責人還是大模型競技場顧問

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

推箱子、俄羅斯方塊……這些人類的經典懷舊小游戲，也成大模型benchmark了。

o3-pro剛剛也挑戰了這兩款游戲，而且表現還都不錯，直接突破了benchmark上限。

具體來說，benchmark中推箱子一共就只做到了被o3-pro突破的第六關；俄羅斯方塊則是強行終止的結果，實際上o3-pro根本停不下來。

如果和前SOTA——o3比較，o3-pro的成績也是直接翻倍。

還有網友直言，比起大模型競技場，這套標準才更適合做測試大模型的基準。

經典小游戲成為新Benchmark

o3-pro挑戰的這兩個游戲，出自一套名為Lmgame的benchmark，顧名思義就是讓大模型玩游戲。

o3-pro挑戰的推箱子是從1989年的版本修改而來，在o3-pro之前，評估指標是游戲結束之前推動到目標位置的箱子總數。

不過這次o3-pro直接把所有關卡都通了，頗有種“得一百分是因為卷面只有一百分”的感覺。

但也不必擔心，測試基準會動態更新，GItHub倉庫中半個月前更新的游戲地圖還只有四關，原版游戲更是有足足50多個關卡。

而在o3-pro挑戰之前，表現最好的是o3，o4-mini緊隨其后，再然后是DeepSeek-R1的最新版本（0528）。

俄羅斯方塊的得分計算方式則是將放置的方塊數量與清除行數的10倍相加，直到游戲結束。

在o3-pro之前，表現最好的模型同樣是o3，但后面R1和o4-mini的排名和推箱子相比交換了位置。

不過在時間上，o3-pro的操作相當耗時，每走一步都要花上好幾分鐘。

另外還有網友認為，如果讓大模型編寫程序而不是直接挑戰，結果可能會更好。

除了o3-pro玩的推箱子和俄羅斯方塊，Lmgame中還包括四款游戲——2048、糖果傳奇、馬里奧兄弟和逆轉裁判。

測試過程中通過一種迭代交互循環模式進行，游戲環境會持續地向大模型提供游戲狀態，模型根據狀態生成動作，這些動作隨后在游戲環境中被執行，并根據執行結果計算獎勵，接著游戲狀態會更新以進行下一輪決策。

同時還引入了智能體框架作為輔助工具，其中包含了感知、記憶、推理等模塊；為了確保評估結果的穩定性和可比性，該模式還實施了提示標準化，以減少提示提示詞帶來的性能波動。

根據游戲的特性和規則，具體到每個游戲的評價方式也有所區別：

超級馬里奧兄弟：衡量標準是馬里奧在所有關卡中累積的水平移動距離（以游戲單位計算），直到失去所有三條生命或完成最終關卡為止。
2048：評估指標是所有合并方塊值的總和，記錄直到棋盤停滯（連續十回合沒有合并或棋盤變化）為止，取以2為底的對數后乘10即為最終分數。
糖果傳奇：評價標準是在固定的 50 回合內消除的糖果總數。
逆轉裁判：通過所有案件關卡中正確動作（例如提交證據、選擇對話）的總計數來衡量，直到犯下五次錯誤決策（即生命值用盡）為止。

不過這些游戲表現的衡量標準當中，都沒有將時間作為考量因素。

另外這套benchmark是開源的，有興趣的話也可以自己下載下來對模型進行測試。

還有網友留言說想看寶可夢的結果，團隊表示馬上安排。

說到寶可夢，Gemini一直在全網直播當中進行挑戰，并且在今年5月初成功通關了寶可夢·藍。

當時谷歌CEO劈柴哥第一時間興奮官宣，還放出了通關時刻的珍貴影像：

大模型競技場顧問課題組出品

這個項目來自UCSD的Hao AI Lab，附屬于USCD的機器學習系統實驗室和NLP實驗室，負責人是Hal?c?o?lu數據科學研究所的助理教授張昊。

張昊本碩博分別就讀于華南理工、上海交大和卡內基梅隆大學，之后到UC伯克利從事博士后研究，結束后加入UCSD。

此外張昊也參與過創立LMSYS，并擔任大模型競技場顧問。

LMSYS是一個非營利組織，大模型競技場和知名模型框架SGLang、vLLM都是由LMSYS研發的。

說回Hao AI Lab，該實驗室創立了多個開源項目，其中GitHub星標數最多的是視頻生成加速框架FastVideo，已獲得1.5k星。

Hao AI Lab還接受谷歌和英偉達的資助，今年4月英偉達給該實驗室捐贈了一臺DGX B200。

參考鏈接：
https://x.com/haoailab/status/1933614723507106226
項目倉庫：
https://github.com/lmgame-org/GamingAgent
榜單：
https://huggingface.co/spaces/lmgame/lmgame_bench
論文：
https://arxiv.org/abs/2505.15146

benchmark

克雷西

14歲華人小孩，折個紙成美國天才少年2025-12-06
智能體A2A落地華為新旗艦，鴻蒙開發者新機遇來了2025-12-06
《三體》“宇宙閃爍”成真！免佩戴裸眼3D屏登Nature2025-12-06
ROCK & ROLL！阿里給智能體造了個實戰演練場 | 開源2025-11-26

o3-pro通關“推箱子”，人類懷舊小游戲成了大模型新Benchmark

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

經典小游戲成為新Benchmark

大模型競技場顧問課題組出品

相關閱讀

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

o3-pro通關“推箱子”，人類懷舊小游戲成了大模型新Benchmark

克雷西 發自 凹非寺 量子位 | 公眾號 QbitAI

經典小游戲成為新Benchmark

大模型競技場顧問課題組出品

相關閱讀

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創 語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

別讓大模型被基準評估坑了！測試集亂入預訓練，分數虛高，模型變傻

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”