微軟Xbox把《我的世界》變AI的世界，游戲Agent協(xié)作框架來了

夢晨 2023-09-24 13:00:52 來源：量子位

還有AI版分手廚房，但AI不會和你分手

夢晨發(fā)自凹非寺
量子位 | 公眾號 QbitAI

微軟研究院及Xbox團(tuán)隊、斯坦福、UCLA、清華、北大都參與的一項研究。

提出多智能體框架MindAgent，利用大模型給游戲NPC規(guī)劃和協(xié)作的能力。

李飛飛朱松純把《我的世界》變AI的世界，微軟Xbox組參與，游戲Agent協(xié)作框架來了

用在現(xiàn)成游戲中，我的世界里NPC“活”了，變成我的AI世界。

也開發(fā)了新游戲作為測試基準(zhǔn)，玩法類似分手廚房，但你玩得不好AI也不會和你分手。

我的AI世界，甚至支持VR

簡單來說，MindAgent框架給了游戲NPC規(guī)劃復(fù)雜任務(wù)的能力，以及相互協(xié)作、與人類玩家協(xié)作。

在我的世界中，首先測試了多智能體協(xié)作能力，任務(wù)是完成不同類型肉食的烹飪。

可以看到左圖中Alex和Steve分別狩獵不同動物，右圖是兩個NPC狩獵完成后一起在爐子旁煮肉。

人機(jī)協(xié)作中，人類玩家可以通過語音聊天向NPC實時表達(dá)自己的意圖和期望的目標(biāo)。

甚至支持VR模式，將玩家與NPC的交互體驗提升到一個新的水平。

在我的世界測試中，新任務(wù)生成間隔（T值）越大、規(guī)劃難度越小，GPT-4在簡單到中等（T3-T5）任務(wù)中表現(xiàn)不錯，高難任務(wù)中表現(xiàn)有明顯下降。

CoS指標(biāo)衡量多智能體協(xié)作的效率，GPT-4在不同難度任務(wù)下平均完成了58%的任務(wù)。

分手廚房，沒朋友也能玩了

研究還設(shè)計了測試基準(zhǔn)CuisineWorld。

規(guī)則類似著名聯(lián)機(jī)游戲《胡鬧廚房》，2-4位玩家需要在限制時間內(nèi)分工配合完成各種菜品的制作并送達(dá)顧客手中。

（因為玩家之間配合不好容易“友盡”，在玩家群體中被戲稱為分手廚房。）

與我的世界一樣，CuisineWorld同樣支持智能體間協(xié)作，人機(jī)協(xié)作，以及VR交互。

由于專為智能體協(xié)作打造，在CuisineWorld上可以方便完成更多測試。

這回GPT-4、ChatGPT（gpt-3.5-turbo0613）、Claude-2和Llama2 70b都參與進(jìn)來。

結(jié)果GPT-4只控制兩個智能體就能完成68%的任務(wù)，Claude-2能完成31%，Llama2和ChatGPT則根本不會玩。

另外3個GPT-4就已經(jīng)能完成80%的任務(wù)，再加到4個效果已經(jīng)不明顯，Claude-2增加智能體數(shù)量還有進(jìn)步空間。

MindAgent框架，讓大模型學(xué)會規(guī)劃

那么大模型到底怎么學(xué)會玩游戲的呢？

也就是靠研究中提出的MindAgent框架了，主要由提示、當(dāng)前狀態(tài)和記憶三個組件組成。

提示組件中包含菜譜、一般說明、推理知識和單樣本演示。

當(dāng)前狀態(tài)組件提供對環(huán)境的觀察快照，包括智能體的位置、持有的物品、環(huán)境中可使用的工具等信息，還包括違反規(guī)則時會被觸發(fā)的反饋。

記憶組件記錄了每個時間步驟的環(huán)境狀態(tài)和智能體狀態(tài)。

利用這些組件，大模型會先輸出對任務(wù)規(guī)劃的文本描述，接下來還有兩個關(guān)鍵步驟：

動作提取，用正則表達(dá)式提取輸出文本中的動作，這一步是必不可少的，因為輸出文本黃總可能包含大模型思維過程，甚至是察覺到失誤而道歉的信息。

動作驗證，評估每個動作的可行性，如果發(fā)現(xiàn)無法執(zhí)行則返回錯誤消息。

最終，團(tuán)隊在實驗中得到如下發(fā)現(xiàn)：

GPT-4在零樣本條件下就能根據(jù)簡單的游戲說明調(diào)度2-4個智能體完成菜肴制作，甚至可以與人類玩家協(xié)作。
提供極少量的專家演示，解釋某些動作的推理、以及在規(guī)劃過程中提供實時反饋，可以顯著提升大模型的多智能體規(guī)劃表現(xiàn)。
可以從更少智能體的例子推廣到協(xié)調(diào)更多智能體，以及適應(yīng)新的游戲領(lǐng)域。
與經(jīng)典的專用規(guī)劃算法相比，大模型規(guī)劃仍存在計算成本、上下文長度限制、非最優(yōu)規(guī)劃等瓶頸，但可以從數(shù)據(jù)中在線改進(jìn)，更靈活地適應(yīng)不同規(guī)劃問題。
在人機(jī)互動實驗中，不同數(shù)量智能體與人協(xié)作會提高任務(wù)成功率，但太多智能體也會降低游戲樂趣。

另外，論文附錄上還給出了系統(tǒng)提示詞示例，如果想讓AI學(xué)會玩你喜歡的游戲，可以參考一下。

論文地址：
https://www.microsoft.com/en-us/research/publication/mindagent-emergent-gaming-interaction/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

Agent 我的世界

夢晨

微軟Xbox把《我的世界》變AI的世界，游戲Agent協(xié)作框架來了

我的AI世界，甚至支持VR

分手廚房，沒朋友也能玩了

MindAgent框架，讓大模型學(xué)會規(guī)劃

相關(guān)閱讀

@CEO，你的下一個私人助理何必是人類

實測OPPO大模型手機(jī)：路人甲一抹就沒，電話粥一鍵總結(jié)

PPIO姚欣：讓免費(fèi)成為可能，AI時代開啟“提速降費(fèi)”｜中國AIGC產(chǎn)業(yè)峰會

在《我的世界》里搭建神經(jīng)網(wǎng)絡(luò)，運(yùn)行過程清晰可見 | 開源

GPT-4玩《我的世界》15倍速攀科技，不看畫面全靠代碼操作

1000個Agent圈地模擬人類社會，北大校友創(chuàng)業(yè)AI版「我的世界」

熱門文章

“豆包手機(jī)”在二手市場價格都翻倍了……

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

谷歌新架構(gòu)突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年

Ilya剛預(yù)言完，世界首個原生多模態(tài)架構(gòu)NEO就來了：視覺和語言徹底被焊死