馬斯克從英偉達(dá)挖人做AI游戲!第一步:研發(fā)世界模型
西安交大校友被馬斯克收入麾下
衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
馬斯克的xAI也入局世界模型了!
想必聽到這個(gè)消息的Meta、Google DeepMind一定會(huì)緩緩打出一個(gè)問號(hào):沖我們來的?
據(jù)《金融時(shí)報(bào)》(FT)報(bào)道,為了增加這場(chǎng)“世界模型大混戰(zhàn)”的贏面,今年夏天,xAI已經(jīng)從英偉達(dá)挖來了多名資深研究員來助陣。
另一邊,在悄然下場(chǎng)世界模型后,馬斯克幾天前又在上再次重申了去年定下的那個(gè)“小目標(biāo)”——
2026年年底前,xAI會(huì)發(fā)布一款偉大的AI生成游戲。

Stability AI創(chuàng)始人EMostaque在自己的上列出這樣一組數(shù)字:
OpenAI今年收入約100億美元,視頻游戲行業(yè)今年收入約2000億美元。
馬斯克呀馬斯克,Attention is all you need(狗頭)。

從英偉達(dá)那兒挖人,開搞!
世界模型是近兩年全球AI巨頭&實(shí)驗(yàn)室們的新戰(zhàn)場(chǎng),Google DeepMind、Meta、NVIDIA、李飛飛等都在做。
如今,xAI也來了。
而它的第一步,就選擇了去英偉達(dá)挖老黃墻腳——
今年夏天,xAI至少雇傭了兩位來自英偉達(dá)的研究人員:Zeeshan Patel和Ethan He。
其中,Zeeshan Patel今年5月碩士畢業(yè)于UC伯克利,研究主要面向深度學(xué)習(xí)、生成模型和物理人工智能。
加入xAI前,他先在蘋果AI/ML部門從事基礎(chǔ)模型研究,后又加入英偉達(dá)研究院從事生成式世界模型研究。
在英偉達(dá)工作期間,Zeeshan Patel專注于大規(guī)模多模態(tài)模型與訓(xùn)練框架的研發(fā)

Ethan He,本科畢業(yè)于西安交通大學(xué),而后前往CMU攻讀計(jì)算機(jī)視覺的碩士學(xué)位,最后滿績(jī)畢業(yè)。
目前,他的Google Scholar被引數(shù)為8495。
2019年到2021年期間,Ethan He在FaceBook AI從事研究工程師,工作內(nèi)容主要包括大規(guī)模視頻自監(jiān)督學(xué)習(xí)、視頻基礎(chǔ)模型等。
2023年,他加入英偉達(dá),工作內(nèi)容均與MoE模型、多模態(tài)模型和世界模型有關(guān)。
今年7月,他正式加入xAI。

若說這兩人有什么共同點(diǎn),那就是兩人此前都在英偉達(dá)參與了Omniverse平臺(tái)的核心開發(fā)工作。
這個(gè)平臺(tái)是全球最成熟的仿真平臺(tái)之一,被稱作“通往物理世界的數(shù)字平行宇宙”。
簡(jiǎn)單來說,Omniverse是英偉達(dá)打造的物理一致性仿真系統(tǒng),廣泛應(yīng)用于機(jī)器人訓(xùn)練、3D 建模、數(shù)字孿生、自動(dòng)駕駛等領(lǐng)域。
它能在虛擬世界中精確地模擬現(xiàn)實(shí)物理規(guī)律,讓AI在不觸碰現(xiàn)實(shí)的情況下,就能學(xué)會(huì)如何與世界互動(dòng)。
——而世界模型需要的就是這樣的能力。
Omniverse與世界模型訓(xùn)練/評(píng)測(cè)天然契合,難怪xAI內(nèi)部人士透露,馬斯克計(jì)劃在xAI將英偉達(dá)在圖形與物理模擬領(lǐng)域的積累,應(yīng)用到自家的世界模型體系中。
入局世界模型要干啥?
“世界模型”這個(gè)概念,其實(shí)最早可以追溯到強(qiáng)化學(xué)習(xí),意思是讓AI先在腦海中模擬出一個(gè)世界,再去規(guī)劃行動(dòng)、預(yù)測(cè)結(jié)果。
而時(shí)至今日,它被不少業(yè)內(nèi)人士視為AGI的核心底座。
AI教母李飛飛對(duì)世界模型的定義則是源自于人類自然形成的世界心智模型。
指的是一種AI系統(tǒng)能夠真正理解和推理物理3D世界的模型,而不僅僅局限于文本處理。
世界模型能讓AI理解3D結(jié)構(gòu)、形狀和組合性,從而推動(dòng)機(jī)器人技術(shù)、創(chuàng)意產(chǎn)業(yè)和計(jì)算的未來發(fā)展。
在李飛飛看來,世界模型不僅能生成和重建持久存在、可導(dǎo)航的3D環(huán)境,還能支持多種應(yīng)用,實(shí)現(xiàn)更大規(guī)模的虛擬世界和多元宇宙的構(gòu)建。

在過去一年,這個(gè)方向幾乎成了AI巨頭和實(shí)驗(yàn)室的兵家必爭(zhēng)之地。
- DeepMind推出Genie 3,能從一張圖片或一段文字,直接生成可交互的 2D 游戲世界;
- Meta發(fā)布V-JEPA-2,讓模型在視頻中預(yù)測(cè)未來幀、理解物理因果;
- 英偉達(dá)自家也在強(qiáng)化世界模型,用于機(jī)器人訓(xùn)練與數(shù)字孿生;
- ……
那么,馬斯克攜xAI下場(chǎng),到底想干啥?
知情人士消息,xAI入局世界模型后的的首批落點(diǎn)可能是電子游戲。
目前,團(tuán)隊(duì)正在嘗試讓AI自動(dòng)生成自適應(yīng)、逼真的3D場(chǎng)景,可以根據(jù)玩家行為實(shí)時(shí)變化的那種。
這與馬斯克自己設(shè)下的目標(biāo)完美呼應(yīng)——到2026年底,推出一款由世界模型驅(qū)動(dòng)的AI生成游戲。
一位用戶在上留言稱:“AI在游戲開發(fā)中的效率很高,能讓創(chuàng)造力自由流動(dòng),這很有道理。”

與此同時(shí),xAI內(nèi)部也正在為此組建一支全模態(tài)團(tuán)隊(duì)(Multimodal Team),專門研究圖像、視頻、音頻的綜合理解與生成。
他們近期公開的招聘信息顯示,這支團(tuán)隊(duì)包括多個(gè)方向:
- Member of Technical Staff – Multimodal(Audio),職責(zé)涵蓋音頻理解、生成與評(píng)測(cè);
- Member of Technical Staff – Multimodal Understanding,薪資區(qū)間18萬–44萬美元/年,側(cè)重于多模態(tài)建模與數(shù)據(jù)系統(tǒng)。
除此之外,還有一個(gè)職位在業(yè)內(nèi)引發(fā)熱議,Video Games Tutor,即電子游戲?qū)煛?/p>
相關(guān)招聘頁面寫得很直接:
時(shí)薪45–100美元,向模型講解電子游戲機(jī)制、敘事邏輯、任務(wù)設(shè)計(jì)。
看來,馬斯克似乎打算讓人類專家教模型怎么玩游戲、怎么設(shè)計(jì)任務(wù)、如何構(gòu)建可交互世界。
馬斯克本人在多次公開發(fā)言中提到,xAI的使命是“讓AI理解宇宙的本質(zhì)”。而世界模型正是通向理解宇宙的必經(jīng)之路。
有了世界模型,AI不再只用來生成內(nèi)容,而能在內(nèi)部模擬出一個(gè)真實(shí)世界的副本。
這意味著它既可以驅(qū)動(dòng)AI游戲,也可以驅(qū)動(dòng)智能體、自動(dòng)駕駛乃至具身智能機(jī)器人。
從這一點(diǎn)上來看,xAI、特斯拉、Neuralink、之間的關(guān)系也變得微妙——
xAI研發(fā)模型,特斯拉擁有機(jī)器人和自動(dòng)駕駛數(shù)據(jù),Neuralink提供腦機(jī)接口則是社交與實(shí)時(shí)反饋的平臺(tái)。
如果這些板塊能通過世界模型互通,馬斯克的AI帝國(guó),將真正形成閉環(huán)。
參考鏈接:
[1]https://www.ft.com/content/ac566346-53dd-4490-8d4c-5269906c64ee
[2]https://x.com/EMostaque/status/1977352468087320714
[3]https://www.zeeshanp.me/research/
[4]https://www.linkedin.com/in/ethanhe42/




