美國(guó)視頻生成老炮兒,入局世界模型
三連發(fā):真實(shí)場(chǎng)景、機(jī)器人、數(shù)字人全齊活
鷺羽 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
世界模型賽道,又有老面孔新鮮入局!
就在剛剛,Runway發(fā)布旗下首個(gè)通用世界模型GWM-1。

不止于此,還打包發(fā)布了一系列世界模型變體:
- 模擬真實(shí)環(huán)境的GWM Worlds;
- 模擬人物對(duì)話的GWM Avatars;
- 模擬機(jī)器人操作的GWM Robotics。
……
而這些通通都是基于最新版Gen-4.5建立的。
是的!Runway這次還把Gen-4.5來(lái)了個(gè)大升級(jí)。

看來(lái)年末大促銷(xiāo)的不只有圣誕老人奧特曼,還有好萊塢名導(dǎo)Runway。
話不多說(shuō),上實(shí)機(jī):

視頻鏈接:https://mp.weixin.qq.com/s/aEp1ex3H63jw_hDIud4EOQ
世界模型全家桶發(fā)布
根據(jù)官方介紹,GWM-1是基于Gen-4.5構(gòu)建的,這是Runway最新的視頻生成模型。
但和Gen-4.5有所不同的是,GWM-1采用的是自回歸架構(gòu),它可以根據(jù)之前的記憶內(nèi)容,進(jìn)行逐幀預(yù)測(cè)生成。
另外模型支持實(shí)時(shí)交互控制,包括調(diào)整相機(jī)姿態(tài)、修改機(jī)器人操作指令或音頻。

它目前包含三個(gè)變體:
1、GWM Worlds:用于實(shí)時(shí)環(huán)境的模擬與探索。
GWM Worlds能夠讓用戶在連貫、有反應(yīng)的世界中自由移動(dòng),而無(wú)需手動(dòng)設(shè)計(jì)每個(gè)空間。
具體來(lái)說(shuō),用戶首先需要為模型提供一個(gè)可供參考的靜態(tài)場(chǎng)景,然后它就會(huì)在用戶移動(dòng)過(guò)程中,實(shí)時(shí)生成一個(gè)沉浸式、無(wú)限且可探索的空間,其中包含幾何圖形、光照和物理效果。
相比于其它世界模型,普遍只能生成有限長(zhǎng)度的幀序列,GWM Worlds不僅能夠在智能體移動(dòng)的同時(shí)實(shí)時(shí)生成新場(chǎng)景,還能保持這些場(chǎng)景元素在長(zhǎng)序列移動(dòng)過(guò)程中的空間一致性。

允許用戶通過(guò)文本提示改變環(huán)境的物理規(guī)則,例如當(dāng)提示詞要求智能體騎自行車(chē),場(chǎng)景就會(huì)被約束在地面上;反之如果提示飛行,模型就會(huì)解除重力約束,實(shí)現(xiàn)空中自由導(dǎo)航。
這將有助于訓(xùn)練智能體在真實(shí)物理世界的行動(dòng),GWM Worlds可以快速搭建出一個(gè)能讓智能體自由探索、犯錯(cuò)和學(xué)習(xí)的環(huán)境。
此外GWM Worlds也可以通過(guò)實(shí)時(shí)生成虛擬環(huán)境,為VR沉浸式體驗(yàn)提供支持。
2、GWM Avatars:能夠模擬人類(lèi)對(duì)話。
這是一個(gè)由音頻驅(qū)動(dòng)的交互式視頻生成模型,可以模擬自然的人類(lèi)表情和動(dòng)作,無(wú)論是寫(xiě)實(shí)還是風(fēng)格化角色。
能夠渲染出逼真的面部表情、眼部動(dòng)作、口型與語(yǔ)音同步,以及自然的手勢(shì),在長(zhǎng)時(shí)間交互中也能保持穩(wěn)定質(zhì)量。

視頻鏈接:https://mp.weixin.qq.com/s/aEp1ex3H63jw_hDIud4EOQ
它可以作為生活中的個(gè)性化導(dǎo)師,用仿真的互動(dòng)方式解釋復(fù)雜概念;也能改變客戶服務(wù)方式,生成一個(gè)永遠(yuǎn)耐心、隨時(shí)在線、具有人類(lèi)表情的數(shù)字人,幫助解決用戶實(shí)際需求。
在面試、談判等高壓場(chǎng)景中,GWM Avatars模擬真實(shí)對(duì)話,讓人們得以在安全環(huán)境中練習(xí)沖突溝通或演講示范;而在游戲和互動(dòng)娛樂(lè)領(lǐng)域,也能讓NPC變得栩栩如生——做到能傾聽(tīng)、能思考、能對(duì)話。

而GWM Avatars即將正式上線,并提供API,供使用者自行集成到自己的產(chǎn)品或服務(wù)中。
3、GWM Robotics:用于機(jī)器人操作。
GWM Robotics本質(zhì)上更偏向于學(xué)習(xí)型模擬器,并非基于固定規(guī)則編程,而是通過(guò)學(xué)習(xí)機(jī)器人相關(guān)數(shù)據(jù)形成模擬能力。

視頻鏈接:https://mp.weixin.qq.com/s/aEp1ex3H63jw_hDIud4EOQ
換言之,它是一個(gè)在機(jī)器人數(shù)據(jù)上訓(xùn)練的世界模型,會(huì)根據(jù)機(jī)器人動(dòng)作預(yù)測(cè)視頻序列,主要承擔(dān)兩大任務(wù):
- 用于策略訓(xùn)練的合成數(shù)據(jù)增強(qiáng):
通過(guò)GWM Robotics生成合成訓(xùn)練數(shù)據(jù),然后從新物體、任務(wù)指令和環(huán)境變化多個(gè)維度擴(kuò)充現(xiàn)有的機(jī)器人數(shù)據(jù)集。
這些合成數(shù)據(jù)無(wú)需進(jìn)行昂貴的真實(shí)世界數(shù)據(jù)收集,就能提升已訓(xùn)練策略的泛化能力和魯棒性。
- 模擬中的策略評(píng)估:
在GWM Robotics里,可直接測(cè)試策略模型可行性(如OpenVLA、OpenPi等VLA模型),而無(wú)需部署到實(shí)體機(jī)器人上。
這種方法將比真實(shí)世界測(cè)試更快、重復(fù)性更高,且安全性顯著提升,同時(shí)還能提供貼合實(shí)際的行為評(píng)估。
總的來(lái)說(shuō),GWM Robotics可以有效解決物理硬件的瓶頸問(wèn)題(成本高、損耗快、場(chǎng)景難復(fù)現(xiàn)等),通過(guò)模擬環(huán)境替代實(shí)體硬件場(chǎng)景,可以讓訓(xùn)練和評(píng)估更高效、更具性價(jià)比。

同時(shí)還發(fā)布了GWM Robotics的Python軟件開(kāi)發(fā)工具包(SDK),該SDK支持多視角視頻生成和長(zhǎng)上下文序列,旨在無(wú)縫集成到現(xiàn)代機(jī)器人策略模型中。
OMT
除了世界模型,Runway這次還對(duì)Gen-4.5進(jìn)行了升級(jí)更新,新增支持原生音頻生成和原生音頻編輯。

視頻鏈接:https://mp.weixin.qq.com/s/aEp1ex3H63jw_hDIud4EOQ
比如Gen-4.5現(xiàn)在可以生成逼真的對(duì)話、音效和背景音頻,把原先的創(chuàng)作內(nèi)容擴(kuò)充到更廣的故事類(lèi)型。
在現(xiàn)有音頻的編輯上,用戶可以根據(jù)自己的特定需求以任何方式進(jìn)行調(diào)整。
不僅能用音頻生成新視頻,還引入了多鏡頭編輯功能,可以在初始場(chǎng)景中進(jìn)行任意長(zhǎng)度的修改,并實(shí)現(xiàn)整段視頻的一致變換。
參考鏈接:
[1]https://runwayml.com/research/introducing-runway-gwm-1
[2]https://x.com/runwayml/status/1999190927814836371
[3]https://techcrunch.com/2025/12/11/runway-releases-its-first-world-model-adds-native-audio-to-latest-video-model/



