美國(guó)視頻生成老炮兒，入局世界模型

鷺羽 2025-12-13 22:41:00 來(lái)源：量子位

三連發(fā)：真實(shí)場(chǎng)景、機(jī)器人、數(shù)字人全齊活

鷺羽發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

世界模型賽道，又有老面孔新鮮入局！

就在剛剛，Runway發(fā)布旗下首個(gè)通用世界模型GWM-1。

不止于此，還打包發(fā)布了一系列世界模型變體：

模擬真實(shí)環(huán)境的GWM Worlds；
模擬人物對(duì)話的GWM Avatars；
模擬機(jī)器人操作的GWM Robotics。
……

而這些通通都是基于最新版Gen-4.5建立的。

是的！Runway這次還把Gen-4.5來(lái)了個(gè)大升級(jí)。

看來(lái)年末大促銷(xiāo)的不只有圣誕老人奧特曼，還有好萊塢名導(dǎo)Runway。

話不多說(shuō)，上實(shí)機(jī)：

美國(guó)視頻生成老炮兒，入局世界模型

視頻鏈接：https://mp.weixin.qq.com/s/aEp1ex3H63jw_hDIud4EOQ

世界模型全家桶發(fā)布

根據(jù)官方介紹，GWM-1是基于Gen-4.5構(gòu)建的，這是Runway最新的視頻生成模型。

但和Gen-4.5有所不同的是，GWM-1采用的是自回歸架構(gòu)，它可以根據(jù)之前的記憶內(nèi)容，進(jìn)行逐幀預(yù)測(cè)生成。

另外模型支持實(shí)時(shí)交互控制，包括調(diào)整相機(jī)姿態(tài)、修改機(jī)器人操作指令或音頻。

它目前包含三個(gè)變體：

1、GWM Worlds：用于實(shí)時(shí)環(huán)境的模擬與探索。

GWM Worlds能夠讓用戶在連貫、有反應(yīng)的世界中自由移動(dòng)，而無(wú)需手動(dòng)設(shè)計(jì)每個(gè)空間。

具體來(lái)說(shuō)，用戶首先需要為模型提供一個(gè)可供參考的靜態(tài)場(chǎng)景，然后它就會(huì)在用戶移動(dòng)過(guò)程中，實(shí)時(shí)生成一個(gè)沉浸式、無(wú)限且可探索的空間，其中包含幾何圖形、光照和物理效果。

相比于其它世界模型，普遍只能生成有限長(zhǎng)度的幀序列，GWM Worlds不僅能夠在智能體移動(dòng)的同時(shí)實(shí)時(shí)生成新場(chǎng)景，還能保持這些場(chǎng)景元素在長(zhǎng)序列移動(dòng)過(guò)程中的空間一致性。

允許用戶通過(guò)文本提示改變環(huán)境的物理規(guī)則，例如當(dāng)提示詞要求智能體騎自行車(chē)，場(chǎng)景就會(huì)被約束在地面上；反之如果提示飛行，模型就會(huì)解除重力約束，實(shí)現(xiàn)空中自由導(dǎo)航。

這將有助于訓(xùn)練智能體在真實(shí)物理世界的行動(dòng)，GWM Worlds可以快速搭建出一個(gè)能讓智能體自由探索、犯錯(cuò)和學(xué)習(xí)的環(huán)境。

此外GWM Worlds也可以通過(guò)實(shí)時(shí)生成虛擬環(huán)境，為VR沉浸式體驗(yàn)提供支持。

2、GWM Avatars：能夠模擬人類(lèi)對(duì)話。

這是一個(gè)由音頻驅(qū)動(dòng)的交互式視頻生成模型，可以模擬自然的人類(lèi)表情和動(dòng)作，無(wú)論是寫(xiě)實(shí)還是風(fēng)格化角色。

能夠渲染出逼真的面部表情、眼部動(dòng)作、口型與語(yǔ)音同步，以及自然的手勢(shì)，在長(zhǎng)時(shí)間交互中也能保持穩(wěn)定質(zhì)量。

美國(guó)視頻生成老炮兒，入局世界模型

視頻鏈接：https://mp.weixin.qq.com/s/aEp1ex3H63jw_hDIud4EOQ

它可以作為生活中的個(gè)性化導(dǎo)師，用仿真的互動(dòng)方式解釋復(fù)雜概念；也能改變客戶服務(wù)方式，生成一個(gè)永遠(yuǎn)耐心、隨時(shí)在線、具有人類(lèi)表情的數(shù)字人，幫助解決用戶實(shí)際需求。

在面試、談判等高壓場(chǎng)景中，GWM Avatars模擬真實(shí)對(duì)話，讓人們得以在安全環(huán)境中練習(xí)沖突溝通或演講示范；而在游戲和互動(dòng)娛樂(lè)領(lǐng)域，也能讓NPC變得栩栩如生——做到能傾聽(tīng)、能思考、能對(duì)話。

而GWM Avatars即將正式上線，并提供API，供使用者自行集成到自己的產(chǎn)品或服務(wù)中。

3、GWM Robotics：用于機(jī)器人操作。

GWM Robotics本質(zhì)上更偏向于學(xué)習(xí)型模擬器，并非基于固定規(guī)則編程，而是通過(guò)學(xué)習(xí)機(jī)器人相關(guān)數(shù)據(jù)形成模擬能力。

美國(guó)視頻生成老炮兒，入局世界模型

視頻鏈接：https://mp.weixin.qq.com/s/aEp1ex3H63jw_hDIud4EOQ

換言之，它是一個(gè)在機(jī)器人數(shù)據(jù)上訓(xùn)練的世界模型，會(huì)根據(jù)機(jī)器人動(dòng)作預(yù)測(cè)視頻序列，主要承擔(dān)兩大任務(wù)：

用于策略訓(xùn)練的合成數(shù)據(jù)增強(qiáng)：

通過(guò)GWM Robotics生成合成訓(xùn)練數(shù)據(jù)，然后從新物體、任務(wù)指令和環(huán)境變化多個(gè)維度擴(kuò)充現(xiàn)有的機(jī)器人數(shù)據(jù)集。

這些合成數(shù)據(jù)無(wú)需進(jìn)行昂貴的真實(shí)世界數(shù)據(jù)收集，就能提升已訓(xùn)練策略的泛化能力和魯棒性。

模擬中的策略評(píng)估：

在GWM Robotics里，可直接測(cè)試策略模型可行性（如OpenVLA、OpenPi等VLA模型），而無(wú)需部署到實(shí)體機(jī)器人上。

這種方法將比真實(shí)世界測(cè)試更快、重復(fù)性更高，且安全性顯著提升，同時(shí)還能提供貼合實(shí)際的行為評(píng)估。

總的來(lái)說(shuō)，GWM Robotics可以有效解決物理硬件的瓶頸問(wèn)題（成本高、損耗快、場(chǎng)景難復(fù)現(xiàn)等），通過(guò)模擬環(huán)境替代實(shí)體硬件場(chǎng)景，可以讓訓(xùn)練和評(píng)估更高效、更具性價(jià)比。

同時(shí)還發(fā)布了GWM Robotics的Python軟件開(kāi)發(fā)工具包（SDK），該SDK支持多視角視頻生成和長(zhǎng)上下文序列，旨在無(wú)縫集成到現(xiàn)代機(jī)器人策略模型中。

OMT

除了世界模型，Runway這次還對(duì)Gen-4.5進(jìn)行了升級(jí)更新，新增支持原生音頻生成和原生音頻編輯。

美國(guó)視頻生成老炮兒，入局世界模型

視頻鏈接：https://mp.weixin.qq.com/s/aEp1ex3H63jw_hDIud4EOQ

比如Gen-4.5現(xiàn)在可以生成逼真的對(duì)話、音效和背景音頻，把原先的創(chuàng)作內(nèi)容擴(kuò)充到更廣的故事類(lèi)型。

在現(xiàn)有音頻的編輯上，用戶可以根據(jù)自己的特定需求以任何方式進(jìn)行調(diào)整。

不僅能用音頻生成新視頻，還引入了多鏡頭編輯功能，可以在初始場(chǎng)景中進(jìn)行任意長(zhǎng)度的修改，并實(shí)現(xiàn)整段視頻的一致變換。

參考鏈接：
[1]https://runwayml.com/research/introducing-runway-gwm-1
[2]https://x.com/runwayml/status/1999190927814836371
[3]https://techcrunch.com/2025/12/11/runway-releases-its-first-world-model-adds-native-audio-to-latest-video-model/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

世界模型視頻生成

鷺羽

美國(guó)視頻生成老炮兒，入局世界模型

世界模型全家桶發(fā)布

OMT

相關(guān)閱讀

國(guó)產(chǎn)AI可以拍微電影了！4K、60幀高清畫(huà)質(zhì)，自帶音效

5天連更5次，可靈AI年末“狂飆式”升級(jí)

Gen-2顛覆AI生成視頻！一句話秒出4K高清大片，網(wǎng)友：徹底改變游戲規(guī)則

首個(gè)接入GPT-5的視頻Agent！一句話生成廣告大片，分鏡配音全包了

世界模型和具身大腦最新突破：90%生成數(shù)據(jù)，VLA性能暴漲300%｜開(kāi)源

拿下3D生成行業(yè)新標(biāo)桿！昆侖萬(wàn)維Matrix-3D新模型鯊瘋了，一張圖建模游戲場(chǎng)景

熱門(mén)文章

跨境電商的疑難雜癥，被1688這個(gè)AI全包了…

起底“豆包手機(jī)”：核心技術(shù)探索早已開(kāi)源，GUI Agent布局近兩年，“全球首款真正的AI手機(jī)”

蘋(píng)果芯片主管也要跑路！庫(kù)克被曝出現(xiàn)健康問(wèn)題

看完最新國(guó)產(chǎn)AI寫(xiě)的公眾號(hào)文章，我慌了！

共推空天領(lǐng)域智能化升級(jí)！趨境科技與金航數(shù)碼強(qiáng)強(qiáng)聯(lián)手