微軟Xbox把《我的世界》變AI的世界,游戲Agent協作框架來了
還有AI版分手廚房,但AI不會和你分手
夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

用在現成游戲中,我的世界里NPC“活”了,變成我的AI世界。
也開發了新游戲作為測試基準,玩法類似分手廚房,但你玩得不好AI也不會和你分手。

我的AI世界,甚至支持VR
簡單來說,MindAgent框架給了游戲NPC規劃復雜任務的能力,以及相互協作、與人類玩家協作。
在我的世界中,首先測試了多智能體協作能力,任務是完成不同類型肉食的烹飪。
可以看到左圖中Alex和Steve分別狩獵不同動物,右圖是兩個NPC狩獵完成后一起在爐子旁煮肉。

人機協作中,人類玩家可以通過語音聊天向NPC實時表達自己的意圖和期望的目標。

甚至支持VR模式,將玩家與NPC的交互體驗提升到一個新的水平。

在我的世界測試中,新任務生成間隔(T值)越大、規劃難度越小,GPT-4在簡單到中等(T3-T5)任務中表現不錯,高難任務中表現有明顯下降。
CoS指標衡量多智能體協作的效率,GPT-4在不同難度任務下平均完成了58%的任務。

分手廚房,沒朋友也能玩了
研究還設計了測試基準CuisineWorld。
規則類似著名聯機游戲《胡鬧廚房》,2-4位玩家需要在限制時間內分工配合完成各種菜品的制作并送達顧客手中。
(因為玩家之間配合不好容易“友盡”,在玩家群體中被戲稱為分手廚房。)
與我的世界一樣,CuisineWorld同樣支持智能體間協作,人機協作,以及VR交互。

由于專為智能體協作打造,在CuisineWorld上可以方便完成更多測試。
這回GPT-4、ChatGPT(gpt-3.5-turbo0613)、Claude-2和Llama2 70b都參與進來。
結果GPT-4只控制兩個智能體就能完成68%的任務,Claude-2能完成31%,Llama2和ChatGPT則根本不會玩。
另外3個GPT-4就已經能完成80%的任務,再加到4個效果已經不明顯,Claude-2增加智能體數量還有進步空間。

MindAgent框架,讓大模型學會規劃
那么大模型到底怎么學會玩游戲的呢?
也就是靠研究中提出的MindAgent框架了,主要由提示、當前狀態和記憶三個組件組成。
提示組件中包含菜譜、一般說明、推理知識和單樣本演示。
當前狀態組件提供對環境的觀察快照,包括智能體的位置、持有的物品、環境中可使用的工具等信息,還包括違反規則時會被觸發的反饋。
記憶組件記錄了每個時間步驟的環境狀態和智能體狀態。

利用這些組件,大模型會先輸出對任務規劃的文本描述,接下來還有兩個關鍵步驟:
動作提取,用正則表達式提取輸出文本中的動作,這一步是必不可少的,因為輸出文本黃總可能包含大模型思維過程,甚至是察覺到失誤而道歉的信息。
動作驗證,評估每個動作的可行性,如果發現無法執行則返回錯誤消息。

最終,團隊在實驗中得到如下發現:
- GPT-4在零樣本條件下就能根據簡單的游戲說明調度2-4個智能體完成菜肴制作,甚至可以與人類玩家協作。
- 提供極少量的專家演示,解釋某些動作的推理、以及在規劃過程中提供實時反饋,可以顯著提升大模型的多智能體規劃表現。
- 可以從更少智能體的例子推廣到協調更多智能體,以及適應新的游戲領域。
- 與經典的專用規劃算法相比,大模型規劃仍存在計算成本、上下文長度限制、非最優規劃等瓶頸,但可以從數據中在線改進,更靈活地適應不同規劃問題。
- 在人機互動實驗中,不同數量智能體與人協作會提高任務成功率,但太多智能體也會降低游戲樂趣。
另外,論文附錄上還給出了系統提示詞示例,如果想讓AI學會玩你喜歡的游戲,可以參考一下。

論文地址:
https://www.microsoft.com/en-us/research/publication/mindagent-emergent-gaming-interaction/
- GPT-5.2果然反超谷歌Gemini 3 Pro!北大數院校友核心貢獻2025-12-12
- 釘釘又發新版本!把 AI 搬進每一次對話和會議2025-12-11
- 英偉達自毀CUDA門檻!15行Python寫GPU內核,性能匹敵200行C++2025-12-08
- GPT-5-Thinking新訓練方法公開:讓AI學會懺悔2025-12-04




