Sora2不夠香了!國產AI視頻模型已能邊看邊生成,生成快還互動佳
百度蒸汽機實現AI視頻流式生成
衡宇 鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
還在用Sora2做惡搞視頻或表情包玩兒?快醒醒,國內AI視頻玩家已實現彎道超車了——
開卷實時流式生成!
就是那種模型推理到哪兒,畫面就生成到哪兒;想改劇情,直接暫停、改指令、視頻重新走向。
換言之,Sora2能做的,它能做;Sora2做不到的,它還能做。
而這,才是和AI視頻一起“創作”的未來式答卷——來自百度蒸汽機(文心專精版)。

百度蒸汽機相信大家都已經不陌生了,5月份以黑馬之姿闖入AI生視頻賽道,初登場就拿下VBench-I2V全球榜一,全球首個實現中文音視頻一體化的視頻生成模型,首次實現多人有聲視頻生成……
而這一次升級的背后,是百度對AI視頻生成領域的重新再定義。
當同行還卡在“生成10s穩定、連續的視頻畫面”時,百度已經率先實現“生成迅速、實時交互、無限續寫”三件套:
- 只需一張圖+一個Prompt,生成過程更流暢自然,短時間、低成本還能保持高質量。
- 支持實時交互,可隨時打斷視頻生成進展,任意位置都能進行提示詞改寫。
- 打破視頻生成時長限制,上傳任意視頻,就能續寫成長篇影視級大作,還能實時預覽視頻內容。
此外,在百度蒸汽機,還能告別以往單向輸出的數字人,定制1V1專屬數字人,沉浸式體驗數字分身互動;任意生成、創造全場景開放世界,無論是開拓新的游戲地圖,還是爽玩全球旅游景點,百度這次,全都有。

正如蒸汽機曾經帶來的技術革命,百度蒸汽機模型的此次更新也將標志著AI視頻正式從短片段走向長篇敘事,從創意工具走向創意伙伴。
從“圖生視頻”到“邊看邊生”:行業首次流式生成體驗
不過,當前主流的AI視頻生成模型還處在Level 1,即使是最近風頭最盛的Sora2,也普遍只能生成5~10秒。
坊間為此還出現了邪修鑒AI大法:遇事不決看時長!
而且要得到結果,短則30秒長則幾分鐘的生成階段,必須老老實實等待。
期間做成啥樣一概不知,生成完整視頻后,無論是細節修改還是整支視頻大調,都沒法實時調整,只能重來一遍,更談不上有什么“交互感”。
這個過程不僅耗時長,而且成本驚人,想要實時交互修改基本上是不可能的。
這對短視頻生成而言,還算夠用,但放到長視頻顯然不夠看,即使勉強用首尾幀技術拼接拉時長,但視頻質量低下、細節粗糙,缺乏連貫性。

百度蒸汽機的出現,則填補了這一領域的空白,讓AI視頻提前進入了邊看邊生、實時共創的全新階段。
不僅生成速度快人一步,生成質量也快到飛起。
首先是生成模式上,既能I2V圖生視頻,又能V2V視頻生視頻,雙線齊發力。
圖生視頻將操作門檻降到最低,摒棄傳統的多圖+多指令模式,只需最基礎的一張圖和一個簡單指令,就能生成長視頻。
比如說我們先進入百度繪想平臺,選擇“長視頻”功能入口,上傳一張愛因斯坦的形象照,輸入Prompt:
愛因斯坦在舞臺上說物理學脫口秀,同時鏡頭跟隨人物變化。

注意這里還要選擇10-60秒的時長,一般默認20秒。

視頻開始生成后,可以在旁邊的任務結果區實時看到當前生成進展。

一旦發現不滿意,立馬點擊“續改”按鈕中斷生成,將視頻幀拖至目標位置,重新下達新的指令,例如這里我們將讓愛因斯坦的動作更豐富一些,讓他一邊說一邊還會比劃動作。
一個小tips:
每12秒,生成任務會自動暫停一次,此時需要用戶自己手動選擇繼續生成or就此結束嗷~

下面請欣賞一段新鮮出爐的愛因斯坦的默劇版脫口秀。

視頻鏈接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
BTW,如果你不想要看無聲短片,可以選擇蒸汽機2.0有聲版。

視頻鏈接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
不過相對應的,最長時長就需要打一丟丟折扣(5~10s)。
好好好,教科書里的人物都能活過來講脫口秀了,物理學原來可以這么有趣!
要是我讀書的時候有它,也不至于回回物理考零昏(doge)
而百度蒸汽機的視頻生視頻,本次更新端上來的全新玩法:
同樣是在長視頻入口進入,首先需要上傳一個時長在2秒到60秒的視頻,我們這里使用的是上次沒做完的哈利波特的太極拳文藝匯演視頻。(咳咳)
原視頻be like:

視頻鏈接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
期間依舊是可以實時查看或修改視頻內容,不過需要注意的是,有且僅有2個視頻可以同時生成。
最終續寫下來,效果也是縱享絲滑~
(這下麻麻再也不用擔心以后小組作業隊友做一半跑路了555)

視頻鏈接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
另外,蒸汽機在開放世界上也表現優異,例如我們讓它來生成一段月球漫步。

視頻鏈接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
還可通過WASD+鼠標控制視角,在月球上自由探索。
Nice!下次旅游旺季,不用出遠門人擠人,在家就能環游世界,計劃通?
不過言歸正傳,蒸汽機到底為啥一下就Next level了?還得是背后的技術升級立大功。
“邊生成邊互動”的AI視頻體驗,如何煉成?
當下,包括Sora 2在內的AI視頻工具,都在朝更長、更穩、更真實、更清晰突破。
但有一點似乎被大多數玩家忽視了:
目前,“生成→等待→反饋”的生產流程,其實一直停留在AI單向輸出的階段。
背后原因主要還是歸結于行業主流方案是采用基于Transformer架構的擴散模型。
受限于Transformer架構的二次計算復雜度,主流AI視頻生成模型計算開銷隨生成時長呈平方級增長。也就是說,需要生成的視頻時長越長,對GPU顯存與計算效率的要求就更高。
一方面成本直接拉爆,另一方面推理效率也難以達到較高水準,所以難以實現實時生成與交互能力。

而迭代后的百度蒸汽機,已經實現了“用戶被動接收”向“AI與用戶共同創造”的轉變。
在蒸汽機這里,AI視頻生成過程本身就是開放的——
視頻不是一口氣生成完畢,而是流式呈現。
模型推理是什么進度,用戶就能看到對應時長的畫面。

生成過程可隨時打斷。
生成中途,用戶要是靈感突發想改點什么,一句新的prompt就能實時生效。

不滿意前一段內容?還可以拉回修改,重新接上。

視頻鏈接:https://mp.weixin.qq.com/s/s-L7EslLvuN31GT9Olt7sg
一句話總結,百度蒸汽機生成AI視頻,已經進入能配合你反悔的Next Level,一切都不必從頭再來。
整個過程像是創作者在電腦前觀摩AI創排導演一支視頻短片,隨時可以以“導演”的身份喊卡,調整細節,修改劇本。
從這個角度來看,百度蒸汽機突破的不只是長視頻生成的技術瓶頸,而是AI視頻的整個創作范式,是一次對AI生成流程的重新定義——
AI視頻生成,終于進入“你說我做,隨時可改”的時代。

為了讓模型學會邊輸出邊協作,百度蒸汽機在模型層面,從架構到底層推理流程,幾乎做了一次徹底重構。
首先是模型架構層面,百度蒸汽機通過引入自回歸擴散模型(Autoregressive Diffusion Models),采用基于流式滑窗的自回歸擴散架構,來實現低成本無限外推和實時生成。
不僅有階梯獨立噪聲構造,還進行動態緩沖區管理,讓模型能同時處理模糊草圖、半完成幀及高精度畫面,最終實現“邊生成邊調整”的實時交互生成流程。
其次,為了解決訓推過程中累積誤差和衰減問題,百度蒸汽機引入了噪聲重注入和歷史幀擾動增強機制,讓它不僅聽得懂指令,還能應對突發調整。
所謂噪聲重注入,就是在訓練時故意加入真實工作中可能遇到的“噪聲”或偏差,讓模型在模擬真實復雜環境的過程中學會更穩、更準地生成結果。
歷史幀擾動增強,則是讓模型學著自己生成過程中的問題并自己修正以應對變化。
第三,在生成畫面的一致性方面,百度蒸汽機在引入錨點幀引導保障全局記憶的同時,還引入歷史參考幀保障連續生成。
最后需要提到非常重要的一點,就是百度蒸汽機基于自回歸擴散架構,突破高壓縮比生成技術,大幅提升擴散模型流式推理性能,保障效果和效率的極致平衡。
通過窗口attention優化和模型蒸餾,用戶使用百度蒸汽機生成視頻時,推理延遲被壓縮到幾乎實時,幾乎不會有“等”的感覺。
技術落地、生態生長,推動AI內容創作進入共創時代
像百度蒸汽機這樣,全流程可控、可打斷、可改寫的實時共創,讓AI視頻生成變得參與性更突出,打開了AI內容創作的新的可能空間。
于是問題也隨之升維。
擁有實時生成能力之后,AI視頻模型能否真正走進創作現場、嵌入真實生產流程?因為對AI創作工具來說,真正的考驗場在創作場景和生產鏈條上。
生成能力再強,實時互動感再強,如果無法走進創作現場,也只是(實驗室里的模型)溫室里的花朵。
回顧百度蒸汽機的迭代路徑,可以清晰看到它的演進節奏,看到一條從底層技術突破,到產品形態重構,再到全鏈條生態落地的路徑:
- 5月,百度視頻生成模型以總分89.38%的成績,登上海外權威視頻生成評測榜單VBench-I2V圖生視頻榜全球第一,率先證明了自家視頻生成的技術力;
- 7月,百度發布自研音視頻一體化模型MuseSteamer(百度蒸汽機背后模型),首創中文音畫協同生成能力,支持畫面、語音、配樂一體生成,真正突破“畫完再配音”的AI短片分離流程;
- 8月,百度蒸汽機音視頻一體化模型完成重大升級,在業內首次實現多人有聲視頻生成,并全面開放Turbo、Pro、Lite等多個版本,打通C端與B端應用通道;
- 9月,發布“通用AI長視頻生成”功能;
- 10月,百度蒸汽機讓AI視頻正式進入實時交互時代,視頻生成不再是一次性產物。
可以看到,短短5個月內,百度蒸汽機實現了從圖生視頻到音畫一體生成,再到實時互動+無限流式生成的演進。

這樣的底層能力重構,首先直接改變的是C端普通用戶的創作方式。
無需專業視頻剪輯經驗,只需上傳一張圖片并輸入一句prompt,用戶就能在平臺上生成一段可實時預覽、隨時修改、隨時續寫的AI視頻。
最大程度告別屢次三番抽卡的煩惱,同時真正實現使用0門檻。
另一邊,迭代后的新技術更能推動AI視頻能力快速向導購、直播、教育、影視制作等商業和應用場景延伸的需求。
這一切,讓百度蒸汽機不再只是一個模型產品,而是新型創作平臺與交互接口的起點。

所以說,別再沉迷于用Sora 2做各種meme和表情包了!
真正讓AI視頻邁入下一階段的技術和應用,正在中國發生。
作為國產AI視頻工具代表,百度蒸汽機不僅在技術架構、生成質量上持續演進,更在實時性與交互性這兩個決定未來創作形態的關鍵點上,率先跨出一步。
這不僅是AI視頻從片段式生成邁向連續敘事的標志性時刻,也是AI內容創作從獨演走向共創的重要起點。
看看現在吧——AI視頻的下一階段,不只是高清,不只是更長,而是實時、可交互、效果出眾、人人可用。
而百度蒸汽機,已經率先抵達新階段的競賽場。
- DeepSeek-V3.2系列開源,性能直接對標Gemini-3.0-Pro2025-12-01
- 誤入人均10個頂級offer的技術天團活動,頂尖AI人才的選擇邏輯我悟了2025-12-04
- 字節“豆包手機”剛開賣,吉利系進展也曝光了:首月速成200人團隊,挖遍華為小米榮耀2025-12-01
- 居然有21%的ICLR 2026評審純用AI生成…2025-11-30




