谷歌邀馬斯克聯手做AI游戲!DeepMind版Sora是個3D游戲引擎 profile-avatar
這個大佬們都在押注的方向,真的要火了~
夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
下一代世界模型炸場,一張圖生成無限多樣的3D游戲世界。
谷歌推出Genie 2,可響應鍵鼠操作,可玩、可控制。
與此前研究相比,Genie 2擁有長期記憶,即使玩家把視角轉開,再回來時也可穩定渲染世界中已存在的部分。
游戲世界中還可以有其他AI NPC存在,與玩家控制的角色進行復雜交互。
這意味著任何人都可以用文字描述他們想要的世界,選擇最喜歡的呈現方式,然后進入這個世界并與之互動!

這下,沉迷《暗黑破壞神4》的馬斯克都覺得很酷,隨后DeepMind創始人Hassabis邀請他一起做個AI游戲。
關鍵馬部長他還真答應了~

結合馬斯克此前聲稱,xAI將開辦一家AI游戲工作室,兩者聯手的可能性還真不低。

不過谷歌DeepMind搞這項研究,可不光是為了給人類玩游戲的——
AI具身智能體,邁向AGI的途徑
Genie 2可用于訓練和評估具身智能體,通過創建豐富多樣的環境,可以生成AI在訓練期間沒見過的評估任務。
比如通過文字指令,訓練智能體打開正確的門。

谷歌表示盡管這項研究仍處于早期階段,在智能體和環境生成能力方面仍有大量改進空間……
但我們相信Genie 2是解決在安全訓練具身智能體的同時,滿足實現通往通用人工智能(AGI)所需的廣度和通用性要求。

此前,世界模型研究在很大程度上僅限于建模一個狹窄的領域,比如一個模型只能模擬《我的世界》像素風格游戲的Oasis。

谷歌在Genie 1中實現了生成多樣2D世界的方法。

Genie 2則完成了向生成豐富3D世界的飛躍,展示了世界模型的涌現能力,包括對象交互、復雜的角色動畫、物理模擬,以及建模并預測其他智能體行為的能力。
從同一幀出發,但玩家的操作不同,可以生成不同的運動軌跡。
這意味著可以模擬反事實體驗(counterfactual experiences)用于訓練智能體,也就是從“假如當時采取另一種行動會怎樣”中獲得經驗。

智能體還可以在3D世界中學會與其他對象交互,如氣球挨打就會爆。

實現這一切,靠的依然是擴散模型。
Genie 2是一種自回歸潛空間擴散模型,在大型視頻數據集上訓練。
(是誰擁有Youtube里上億小時的游戲視頻數據,我不說)

經過自編碼器處理后,視頻的Lantent frames被傳遞到一個大型Transformer動力學模型,該模型使用與大型語言模型類似的因果掩碼進行訓練。
在推理時,Genie 2可以自回歸方式采樣,對單個操作和過去的幀逐幀執行,使用classifier-free guidance來提高操作可控性。
此外,谷歌還透露,現在給出的視頻示例都是由為蒸餾的模型生成,以展示可能性。
蒸餾模型可以做到實時控制,但會降低輸出質量。

One More Thing
就在2天前,李飛飛創業公司World Labs也推出了從單個圖像生成3D世界技術。

這個大佬們都在押注的方向,真的要火了~
參考鏈接:
[1]https://x.com/elonmusk/status/1864388977866006639
[2]https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
- GPT-5-Thinking新訓練方法公開:讓AI學會懺悔2025-12-04
- GPT5.5代號“蒜你狠”曝光!OpenAI拉響紅色警報加班趕制新模型,最快下周就發2025-12-03
- 華爾街尬捧TPU學術界懵了:何愷明5年前就是TPU編程高手,多新鮮2025-11-30
- 混元OCR模型核心技術揭秘:統一框架、真端到端2025-11-30




