Sora2不夠香了！國產AI視頻模型已能邊看邊生成，生成快還互動佳

衡宇 2025-10-15 19:15:03 來源：量子位

百度蒸汽機實現AI視頻流式生成

衡宇鷺羽發自凹非寺

量子位 | 公眾號 QbitAI

還在用Sora2做惡搞視頻或表情包玩兒？快醒醒，國內AI視頻玩家已實現彎道超車了——

開卷實時流式生成！

就是那種模型推理到哪兒，畫面就生成到哪兒；想改劇情，直接暫停、改指令、視頻重新走向。

換言之，Sora2能做的，它能做；Sora2做不到的，它還能做。

而這，才是和AI視頻一起“創作”的未來式答卷——來自百度蒸汽機（文心專精版）。

百度蒸汽機相信大家都已經不陌生了，5月份以黑馬之姿闖入AI生視頻賽道，初登場就拿下VBench-I2V全球榜一，全球首個實現中文音視頻一體化的視頻生成模型，首次實現多人有聲視頻生成……

而這一次升級的背后，是百度對AI視頻生成領域的重新再定義。

當同行還卡在“生成10s穩定、連續的視頻畫面”時，百度已經率先實現“生成迅速、實時交互、無限續寫”三件套：

只需一張圖+一個Prompt，生成過程更流暢自然，短時間、低成本還能保持高質量。
支持實時交互，可隨時打斷視頻生成進展，任意位置都能進行提示詞改寫。
打破視頻生成時長限制，上傳任意視頻，就能續寫成長篇影視級大作，還能實時預覽視頻內容。

此外，在百度蒸汽機，還能告別以往單向輸出的數字人，定制1V1專屬數字人，沉浸式體驗數字分身互動；任意生成、創造全場景開放世界，無論是開拓新的游戲地圖，還是爽玩全球旅游景點，百度這次，全都有。

正如蒸汽機曾經帶來的技術革命，百度蒸汽機模型的此次更新也將標志著AI視頻正式從短片段走向長篇敘事，從創意工具走向創意伙伴。

從“圖生視頻”到“邊看邊生”：行業首次流式生成體驗

不過，當前主流的AI視頻生成模型還處在Level 1，即使是最近風頭最盛的Sora2，也普遍只能生成5～10秒。

坊間為此還出現了邪修鑒AI大法：遇事不決看時長！

而且要得到結果，短則30秒長則幾分鐘的生成階段，必須老老實實等待。

期間做成啥樣一概不知，生成完整視頻后，無論是細節修改還是整支視頻大調，都沒法實時調整，只能重來一遍，更談不上有什么“交互感”。

這個過程不僅耗時長，而且成本驚人，想要實時交互修改基本上是不可能的。

這對短視頻生成而言，還算夠用，但放到長視頻顯然不夠看，即使勉強用首尾幀技術拼接拉時長，但視頻質量低下、細節粗糙，缺乏連貫性。

百度蒸汽機的出現，則填補了這一領域的空白，讓AI視頻提前進入了邊看邊生、實時共創的全新階段。

不僅生成速度快人一步，生成質量也快到飛起。

首先是生成模式上，既能I2V圖生視頻，又能V2V視頻生視頻，雙線齊發力。

圖生視頻將操作門檻降到最低，摒棄傳統的多圖+多指令模式，只需最基礎的一張圖和一個簡單指令，就能生成長視頻。

比如說我們先進入百度繪想平臺，選擇“長視頻”功能入口，上傳一張愛因斯坦的形象照，輸入Prompt：

愛因斯坦在舞臺上說物理學脫口秀，同時鏡頭跟隨人物變化。

注意這里還要選擇10-60秒的時長，一般默認20秒。

視頻開始生成后，可以在旁邊的任務結果區實時看到當前生成進展。

一旦發現不滿意，立馬點擊“續改”按鈕中斷生成，將視頻幀拖至目標位置，重新下達新的指令，例如這里我們將讓愛因斯坦的動作更豐富一些，讓他一邊說一邊還會比劃動作。

一個小tips：

每12秒，生成任務會自動暫停一次，此時需要用戶自己手動選擇繼續生成or就此結束嗷～

下面請欣賞一段新鮮出爐的愛因斯坦的默劇版脫口秀。

Sora2不夠香了！國產AI視頻模型已能邊看邊生成，生成快還互動佳

視頻鏈接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

BTW，如果你不想要看無聲短片，可以選擇蒸汽機2.0有聲版。

Sora2不夠香了！國產AI視頻模型已能邊看邊生成，生成快還互動佳

視頻鏈接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

不過相對應的，最長時長就需要打一丟丟折扣（5～10s）。

好好好，教科書里的人物都能活過來講脫口秀了，物理學原來可以這么有趣！

要是我讀書的時候有它，~~也不至于回回物理考零昏（doge）~~

而百度蒸汽機的視頻生視頻，本次更新端上來的全新玩法：

同樣是在長視頻入口進入，首先需要上傳一個時長在2秒到60秒的視頻，我們這里使用的是上次沒做完的哈利波特的太極拳文藝匯演視頻。（咳咳）

原視頻be like：

Sora2不夠香了！國產AI視頻模型已能邊看邊生成，生成快還互動佳

視頻鏈接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

期間依舊是可以實時查看或修改視頻內容，不過需要注意的是，有且僅有2個視頻可以同時生成。

最終續寫下來，效果也是縱享絲滑～

（這下麻麻再也不用擔心以后小組作業隊友做一半跑路了555）

Sora2不夠香了！國產AI視頻模型已能邊看邊生成，生成快還互動佳

視頻鏈接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

另外，蒸汽機在開放世界上也表現優異，例如我們讓它來生成一段月球漫步。

Sora2不夠香了！國產AI視頻模型已能邊看邊生成，生成快還互動佳

視頻鏈接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

還可通過WASD+鼠標控制視角，在月球上自由探索。

Nice！下次旅游旺季，不用出遠門人擠人，在家就能環游世界，計劃通?

不過言歸正傳，蒸汽機到底為啥一下就Next level了？還得是背后的技術升級立大功。

“邊生成邊互動”的AI視頻體驗，如何煉成？

當下，包括Sora 2在內的AI視頻工具，都在朝更長、更穩、更真實、更清晰突破。

但有一點似乎被大多數玩家忽視了：

目前，“生成→等待→反饋”的生產流程，其實一直停留在AI單向輸出的階段。

背后原因主要還是歸結于行業主流方案是采用基于Transformer架構的擴散模型。

受限于Transformer架構的二次計算復雜度，主流AI視頻生成模型計算開銷隨生成時長呈平方級增長。也就是說，需要生成的視頻時長越長，對GPU顯存與計算效率的要求就更高。

一方面成本直接拉爆，另一方面推理效率也難以達到較高水準，所以難以實現實時生成與交互能力。

而迭代后的百度蒸汽機，已經實現了“用戶被動接收”向“AI與用戶共同創造”的轉變。

在蒸汽機這里，AI視頻生成過程本身就是開放的——

視頻不是一口氣生成完畢，而是流式呈現。

模型推理是什么進度，用戶就能看到對應時長的畫面。

生成過程可隨時打斷。

生成中途，用戶要是靈感突發想改點什么，一句新的prompt就能實時生效。

不滿意前一段內容？還可以拉回修改，重新接上。

Sora2不夠香了！國產AI視頻模型已能邊看邊生成，生成快還互動佳

視頻鏈接：https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg

一句話總結，百度蒸汽機生成AI視頻，已經進入能配合你反悔的Next Level，一切都不必從頭再來。

整個過程像是創作者在電腦前觀摩AI創排導演一支視頻短片，隨時可以以“導演”的身份喊卡，調整細節，修改劇本。

從這個角度來看，百度蒸汽機突破的不只是長視頻生成的技術瓶頸，而是AI視頻的整個創作范式，是一次對AI生成流程的重新定義——

AI視頻生成，終于進入“你說我做，隨時可改”的時代。

為了讓模型學會邊輸出邊協作，百度蒸汽機在模型層面，從架構到底層推理流程，幾乎做了一次徹底重構。

首先是模型架構層面，百度蒸汽機通過引入自回歸擴散模型（Autoregressive Diffusion Models），采用基于流式滑窗的自回歸擴散架構，來實現低成本無限外推和實時生成。

不僅有階梯獨立噪聲構造，還進行動態緩沖區管理，讓模型能同時處理模糊草圖、半完成幀及高精度畫面，最終實現“邊生成邊調整”的實時交互生成流程。

其次，為了解決訓推過程中累積誤差和衰減問題，百度蒸汽機引入了噪聲重注入和歷史幀擾動增強機制，讓它不僅聽得懂指令，還能應對突發調整。

所謂噪聲重注入，就是在訓練時故意加入真實工作中可能遇到的“噪聲”或偏差，讓模型在模擬真實復雜環境的過程中學會更穩、更準地生成結果。

歷史幀擾動增強，則是讓模型學著自己生成過程中的問題并自己修正以應對變化。

第三，在生成畫面的一致性方面，百度蒸汽機在引入錨點幀引導保障全局記憶的同時，還引入歷史參考幀保障連續生成。

最后需要提到非常重要的一點，就是百度蒸汽機基于自回歸擴散架構，突破高壓縮比生成技術，大幅提升擴散模型流式推理性能，保障效果和效率的極致平衡。

通過窗口attention優化和模型蒸餾，用戶使用百度蒸汽機生成視頻時，推理延遲被壓縮到幾乎實時，幾乎不會有“等”的感覺。

技術落地、生態生長，推動AI內容創作進入共創時代

像百度蒸汽機這樣，全流程可控、可打斷、可改寫的實時共創，讓AI視頻生成變得參與性更突出，打開了AI內容創作的新的可能空間。

于是問題也隨之升維。

擁有實時生成能力之后，AI視頻模型能否真正走進創作現場、嵌入真實生產流程？因為對AI創作工具來說，真正的考驗場在創作場景和生產鏈條上。

生成能力再強，實時互動感再強，如果無法走進創作現場，也只是~~（實驗室里的模型）~~溫室里的花朵。

回顧百度蒸汽機的迭代路徑，可以清晰看到它的演進節奏，看到一條從底層技術突破，到產品形態重構，再到全鏈條生態落地的路徑：

5月，百度視頻生成模型以總分89.38%的成績，登上海外權威視頻生成評測榜單VBench-I2V圖生視頻榜全球第一，率先證明了自家視頻生成的技術力；
7月，百度發布自研音視頻一體化模型MuseSteamer（百度蒸汽機背后模型），首創中文音畫協同生成能力，支持畫面、語音、配樂一體生成，真正突破“畫完再配音”的AI短片分離流程；
8月，百度蒸汽機音視頻一體化模型完成重大升級，在業內首次實現多人有聲視頻生成，并全面開放Turbo、Pro、Lite等多個版本，打通C端與B端應用通道；
9月，發布“通用AI長視頻生成”功能；
10月，百度蒸汽機讓AI視頻正式進入實時交互時代，視頻生成不再是一次性產物。

可以看到，短短5個月內，百度蒸汽機實現了從圖生視頻到音畫一體生成，再到實時互動+無限流式生成的演進。

這樣的底層能力重構，首先直接改變的是C端普通用戶的創作方式。

無需專業視頻剪輯經驗，只需上傳一張圖片并輸入一句prompt，用戶就能在平臺上生成一段可實時預覽、隨時修改、隨時續寫的AI視頻。

最大程度告別屢次三番抽卡的煩惱，同時真正實現使用0門檻。

另一邊，迭代后的新技術更能推動AI視頻能力快速向導購、直播、教育、影視制作等商業和應用場景延伸的需求。

這一切，讓百度蒸汽機不再只是一個模型產品，而是新型創作平臺與交互接口的起點。

所以說，別再沉迷于用Sora 2做各種meme和表情包了！

真正讓AI視頻邁入下一階段的技術和應用，正在中國發生。

作為國產AI視頻工具代表，百度蒸汽機不僅在技術架構、生成質量上持續演進，更在實時性與交互性這兩個決定未來創作形態的關鍵點上，率先跨出一步。

這不僅是AI視頻從片段式生成邁向連續敘事的標志性時刻，也是AI內容創作從獨演走向共創的重要起點。

看看現在吧——AI視頻的下一階段，不只是高清，不只是更長，而是實時、可交互、效果出眾、人人可用。

而百度蒸汽機，已經率先抵達新階段的競賽場。

AI工具 AI視頻實時交互百度蒸汽機

衡宇

Sora2不夠香了！國產AI視頻模型已能邊看邊生成，生成快還互動佳

從“圖生視頻”到“邊看邊生”：行業首次流式生成體驗

“邊生成邊互動”的AI視頻體驗，如何煉成？

技術落地、生態生長，推動AI內容創作進入共創時代

相關閱讀

可靈2.5 Turbo太兇殘：30%成本暴降+效果飛躍，生成體操動作可去參賽

每秒生成超30幀視頻，支持實時交互！自回歸視頻生成新框架刷新生成效率

這個5億播放的AI視頻，邪乎得平平無奇

讓AI視頻進入「全民GC」時代，這家中國公司剛剛真的做到了

清華系AI視頻工具，用10天給《毒液》官方做了個片子

PixVerse（拍我AI）V5.5發布：國內首款分鏡+音頻一鍵生成AI視頻大模型

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

Sora2不夠香了！國產AI視頻模型已能邊看邊生成，生成快還互動佳

從“圖生視頻”到“邊看邊生”：行業首次流式生成體驗

“邊生成邊互動”的AI視頻體驗，如何煉成？

技術落地、生態生長，推動AI內容創作進入共創時代

相關閱讀

可靈2.5 Turbo太兇殘：30%成本暴降+效果飛躍，生成體操動作可去參賽

每秒生成超30幀視頻，支持實時交互！自回歸視頻生成新框架刷新生成效率

這個5億播放的AI視頻，邪乎得平平無奇

讓AI視頻進入「全民GC」時代，這家中國公司剛剛真的做到了

清華系AI視頻工具，用10天給《毒液》官方做了個片子

PixVerse（拍我AI）V5.5發布：國內首款分鏡+音頻一鍵生成AI視頻大模型

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創 語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式