李飛飛發(fā)布全新世界模型，單GPU就能跑！

時令 2025-10-17 12:39:35 來源：量子位

可永久互動

時令發(fā)自凹非寺

量子位 | 公眾號 QbitAI

李飛飛的世界模型創(chuàng)業(yè)，最新成果來了！

剛剛，教母親自宣布對外推出全新模型RTFM（A Real-Time Frame Model），不僅具備實時運行、持久性和3D一致性，更關鍵的是——

單張H100 GPU就能跑。

此外，RTFM的設計遵循三大核心原則：

效率：僅需單張H100 GPU，RTFM便能以交互級幀率實時完成推理運算。

可擴展性：該架構具備隨數據量與算力增長而持續(xù)擴展的能力。它通過端到端的通用架構從海量視頻數據中自主學習，無需依賴顯式3D表征即可構建三維世界模型。

持久性：用戶可無限時長與RTFM交互，所有場景將永久留存。該系統(tǒng)構建的持久化3D世界不會因視角轉換而消失。

下面具體來看。

世界模型需要大量計算資源

強大的世界模型能夠實時重建、生成并模擬具有持久性、可交互且物理精確的世界。這類模型將徹底改變從媒體到機器人技術等各行各業(yè)。

過去一年，生成式視頻建模的進展已成功應用于生成式世界建模領域。

隨著技術發(fā)展，一個事實愈發(fā)清晰：生成式世界模型對算力的需求將遠超當今的大型語言模型。

若直接套用現有視頻架構，生成60幀的4K交互視頻流每秒需產生超過10萬個token（約等于《弗蘭肯斯坦》或首部《哈利·波特》的篇幅）。

而要維持一小時以上的持續(xù)交互，需處理的上下文token更將突破1億大關。基于當前計算基礎設施，這既不可行也不具備經濟性。

李飛飛團隊深信“慘痛教訓”揭示的規(guī)律：

那些能隨算力增長優(yōu)雅擴展的簡潔方法終將在AI領域占據主導，因為它們能享受數十年來推動技術發(fā)展的算力成本指數級下降紅利。生成式世界模型正處在絕佳位置，必將從持續(xù)降低的算力成本中獲益。

這也就引出一個關鍵問題：生成式世界模型是否會被當前硬件條件所限制？能否現在就預覽這項技術的雛形？

于是，李飛飛團隊設定了一個明確目標：設計一款足夠高效、可立即部署，并能隨算力提升持續(xù)擴展的生成式世界模型。

他們的目的是打造僅需單張H100 GPU即可驅動的模型，在保持交互幀率的同時，確保虛擬世界永不消散。實現這些技術指標，將讓他們提前窺見未來——在當下硬件上體驗明日模型可能達到的高度。

這一目標深刻影響著他們從任務設定到模型架構的整個系統(tǒng)設計。通過精心優(yōu)化推理堆棧的每個環(huán)節(jié)，融合架構設計、模型蒸餾與推理優(yōu)化的前沿突破，他們致力于在當今硬件上呈現對未來模型最高保真度預覽。

世界模型作為學習渲染器

傳統(tǒng)的3D圖形管線采用顯式3D表征（如三角網格、高斯?jié)姙R）構建世界模型，再通過渲染生成2D圖像。這些管線依賴人工設計的數據結構與算法來模擬3D幾何、材質、光照、陰影及反射等效果。

數十年來，這類方法始終是計算機圖形學領域的中流砥柱，但其難以隨數據量與算力增長實現線性擴展。

RTFM則另辟蹊徑。基于生成式視頻建模的最新突破，研究團隊通過訓練單一神經網絡，輸入場景的單張或多張2D圖像，即可從全新視角生成該場景的2D圖像，全程無需構建任何顯式3D表征。

RTFM還采用作用于幀序列的自回歸擴散變換器架構，通過海量視頻數據進行端到端訓練，實現基于歷史幀的后續(xù)幀預測。

RTFM 可以被視為一種可學習的渲染器（learned renderer）。它首先將輸入的圖像幀轉換為神經網絡中的激活（即KV cache），這些激活以隱式方式表示整個世界，在生成新幀的過程中，網絡通過注意力機制從這種表示中讀取信息，從而根據輸入視角生成與之保持一致的世界新視圖。

從輸入視圖轉換為世界表示，以及再從該表示中渲染新幀的機制，并不是通過手工設計的，而是通過端到端的數據訓練自動學得的。

RTFM只需在訓練過程中觀察到這些現象，就能夠學會建模諸如反射、陰影等復雜效果。

可以說，RTFM模糊了“重建”（在已有視角之間進行插值）與“生成”（創(chuàng)造輸入視角中不可見的新內容）之間的界限，而這兩者在計算機視覺中歷史上一直被視為兩個獨立的問題。

當RTFM被提供大量輸入視角時，由于任務約束更強，它更傾向于執(zhí)行重建；當輸入視角較少時，它則被迫進行超出已有視角的外推生成。

將姿態(tài)幀作為空間記憶

現實世界的一個關鍵特性是持久性（persistence）：當你移開視線時，世界不會消失或完全改變，無論你離開多長時間，你總是可以回到之前去過的地方。

這對自回歸幀模型來說一直是一個挑戰(zhàn)。世界僅通過二維圖像幀被隱式表示，因此，實現持久性要求模型在用戶探索世界的過程中，對不斷增長的幀集合進行推理。這意味著每生成一幀的成本都比前一幀更高，因此模型對世界的記憶實際上受到其計算資源預算的限制。

RTFM通過將每一幀建模為在三維空間中具有一個姿態(tài)（位置和方向）來規(guī)避這一問題。他們通過向模型提供待生成幀的姿態(tài)來生成新幀。

模型對世界的記憶（包含在其幀中）具有空間結構。它將帶有姿態(tài)的幀作為空間記憶使用。這為模型提供了一個弱先驗——即它所建模的世界是三維歐幾里得空間——而無需強制模型顯式預測該世界中物體的三維幾何形狀。

RTFM的空間記憶使得持久性不受限制。在生成新幀時，他們會從已姿態(tài)幀的空間記憶中檢索附近幀，以為模型構建一個定制的上下文。

團隊將這一技術稱為上下文切換（context juggling）：模型在不同空間區(qū)域生成內容時會使用不同的上下文幀。這使得RTFM能夠在長時間交互中保持對大型世界的持久記憶，而無需對不斷增長的幀集合進行推理。

最后，該模型即日起以預覽版形式開放體驗，現在就可以試起來了…

試完歡迎回來補個反饋評論哦，筆芯～

參考鏈接：
[1]https://x.com/drfeifei/status/1978840835341914164
[2]https://x.com/theworldlabs/status/1978839175320186988
[3]https://www.worldlabs.ai/blog/rtfm

世界模型李飛飛

時令

李飛飛發(fā)布全新世界模型，單GPU就能跑！

世界模型需要大量計算資源

世界模型作為學習渲染器

將姿態(tài)幀作為空間記憶

相關閱讀

李飛飛發(fā)起機器人家務挑戰(zhàn)賽！老黃第一時間批錢贊助

自動駕駛獨角獸如此“造假”，LeCun都服了

李飛飛創(chuàng)業(yè)融資16億！團隊首次官宣：1/3華人面孔，老黃和“喬布斯”都投了

世界模型和具身大腦最新突破：90%生成數據，VLA性能暴漲300%｜開源

李飛飛「具身智能」新成果！機器人接入大模型直接聽懂人話

AI教母李飛飛首次創(chuàng)業(yè)！成立“空間智能”公司，已完成種子輪

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

Transformer作者爆料GPT-5.1內幕！OpenAI內部命名規(guī)則變亂了

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創(chuàng) 語音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”