AI,來感受被「分手廚房」支配的恐懼吧
諾丁漢大學、UC伯克利和微軟研究院出品
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
盆友,你感受過被分手廚房,啊不,《煮糊了》(Overcooked)支配的恐懼嗎?
其實,別說是你,就是AI們碰上需要多人配合,又得切菜,又得上鍋,又得送菜,地形還復雜的情況,也一樣會分分鐘敗下陣來。
這不,來自諾丁漢大學、UC伯克利和微軟研究院的研究人員,現在就提出:不會玩《煮糊了》的深度強化學習模型,不是好協作AI。
他們還發現,當前多數深度RL模型,竟然都沒法兒在《煮糊了》里拿到65%以上的分數。
為此,他們專門寫了一篇論文。
用簡化版《煮糊了》進行基準測試
想要在現實世界中應用深度強化學習模型,實現AI與人類的協作,目前一個大的挑戰在于,這類系統在遇到開發過程中未曾見過的情況、未訓練過的行為時,能否保持魯棒性。
而如何去評估模型的魯棒性,也是困擾學界的一個難點。
不知道是不是分手廚房帶來的胡鬧現場啟發了他們,研究人員認為,《煮糊了》能夠成功在系統能夠處理的范圍內,測試出潛在的邊緣案例。
比如,在游戲中,系統必須應對這樣的場景:盤子被不小心落在了柜臺上,搭檔因為思考或者暫時離開停留在原地……
于是,他們根據《煮糊了》的環境,設計了簡化版的單元測試。
主要分為三類:
狀態魯棒性單元測試,這時成功的標準不取決于搭檔的狀態。如上圖(a)中,綠帽子廚師已經拿到了一個盤子,所以無論綠帽子廚師接下來作出怎樣的決策,藍帽子廚師都只要向左拿一個洋蔥就是了。
智能體魯棒性單元測試,這時搭檔的狀態會影響結果,需要衡量智能體的魯棒性。如上圖(b)中,通道只有一條,綠帽子廚師想要去送湯,藍帽子廚師就得讓開。
智能體&記憶魯棒性單元測試。如上圖(c)中,綠帽子廚師沒動靜了,出于離開狀態,那么藍帽子廚師應該自己去取盤子送湯。這個狀態需要結合歷史記錄來檢測。
研究人員表示,這套基于《煮糊了》的測試套件,能提供無法通過簡單考慮驗證獎勵獲得的信息,因此未來可以作為一個評判人工智能協作能力的基準指標。
傳送門
論文地址:
https://arxiv.org/abs/2101.05507
代碼地址:
https://github.com/HumanCompatibleAI/human_ai_robustness
參考鏈接:
https://venturebeat.com/2021/01/15/researchers-propose-using-the-game-overcooked-to-benchmark-collaborative-ai-systems/
— 完 —
- 蘋果芯片主管也要跑路!庫克被曝出現健康問題2025-12-07
- 世界模型和具身大腦最新突破:90%生成數據,VLA性能暴漲300%|開源2025-12-02
- 谷歌新架構突破Transformer超長上下文瓶頸!Hinton靈魂拷問:后悔Open嗎?2025-12-05
- 90后華人副教授突破30年數學猜想!結論與生成式AI直接相關2025-11-26




