智譜AI版Sora來了!人人免費不限次,有手機就能玩,API也開放了
PC、APP、小程序均可使用
金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
就在剛剛,智譜AI版的Sora橫空出世,名曰清影。
話不多說,直接來看一下通過清影生成的一部短片。
視頻地址:https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
在文生視頻方面,例如給清影一段Prompt,可以挑戰一下它的想象力:
在霓虹燈閃爍的賽博朋克風格城市夜景中,手持跟拍的鏡頭緩緩推近,一個機械風格的小猴子正在用高科技工具維修,周圍是閃爍的電子設備和未來主義的裝修材料。賽博朋克風格,氣氛神秘,4K高清。
視頻地址:https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
賽博朋克、未來感味道十足,是比較貼近我們腦海中想象的那種畫面了。
而除了文生視頻之外,清影這次把圖生視頻的能力也一道發布了出來。
現在,讓我們一同來比較一下你的想象力,和清影的創造力,到底誰更勝一籌。
請看第一張圖——洞穴文明:

然后下面這段視頻便是清影用AI Power創造并配樂的版本:
視頻地址:https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
視頻的最后,清影竟然還學會了在關鍵幀處晃動下鏡頭,讓視頻更具神秘的味道。
接下來,我們再來Round 2,依舊是先一起來看圖——火龍吐息:

清影根據這張圖所制作視頻的打開方式是這樣的:
視頻地址:https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
是能想象到這條龍準備噴火,但是卻沒想到是燒了地上的村莊,不過也是合情合理的那種。
但縱觀智譜AI的整活發布活動,高清、畫面一致性的效果還僅僅是亮點中的一隅,更重要的是它把福利值給拉滿了!
全民免費,不用排隊,不限次數!
而且效果上,更是直接把自家視頻生成大模型CogVideo的能力馬力全開,不搞饑餓營銷。
據智譜AI介紹,僅需30s的時間,就能生成出6s的1440×960視頻,模型推理的速度足足提高了6倍之多。

不僅如此,現在在智譜輕言的PC版和APP上,文生視頻/圖生視頻的功能都已經開放;小程序方面,目前則是暫時只支持圖生視頻。
對開發者來說也有個利好的消息,這次視頻生成大模型的API也已經全面開放了,是國內首個哦!
不得不說,便捷和高效這塊,智譜AI這次也是拿捏到位了。
那么接下來,是時候用智譜AI的視頻生成功能來搞事情實測一波了。
實測智譜AI版Sora
我們先來測一波文生視頻的效果。
打開智譜輕言APP或PC版,文生視頻的入口就在主對話里了。


以APP為例,界面是這樣的:

然后萬事俱備,只差輸入Prompt了。
但需要注意的是,這卻是決定視頻生成效果成敗關鍵中的關鍵。
一個最重要的原則就是:結!構!性!?公式如下:
- 簡單公式:[攝像機移動]+[建立場景]+[更多細節]
- 復雜公式:[鏡頭語言] + [光影] + [主體 (主體描述)] + [主體運動] +[場景 (場景描述)] +[情緒/氛圍/風格]
那么效果會差多少呢?
例如如果只輸入:小男孩喝咖啡,生成的結果是這樣的:

中規中矩,但卻是一眼AI的感覺。
但如果把提示詞按照公式豐富一下,那么打開方式就截然不同了:
攝影機平移,一個小男孩坐在公園的長椅上,手里拿著一杯熱氣騰騰的咖啡。他穿著一件藍色的襯衫,看起來很愉快,背景是綠樹成蔭的公園,陽光透過樹葉灑在男孩身上。
視頻地址:https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ
這不,電影感一下子就出來了。
但除了剛才的公式,還有幾個重要的原則也可以參考一下。
首先,重復就是力量。
在Prompt的不同部分重復或強化關鍵詞有助于提高輸出的一致性。例如,攝像機以超高速鏡頭快速飛過場景(其中的“超高速”、“快速”就是重復詞)。
其次,盡量讓你的Prompt集中在場景中應該出現的內容上。例如,你應該提示晴朗的天空,而不是沒有云的天空。
有了這些公式和原則之后,我們就可以大展拳腳地嘗試一番了。
小王子和狐貍在月球一起看星空,狐貍時不時看向小王子。
寫實描繪,近距離,獵豹臥在地上睡覺,身體微微起伏。
除此之外,根據智譜AI的介紹,多試幾次,說不定會出現意想不到的效果(反正是免費的)。
在文生視頻之后,我們就再來測試一波圖生視頻。
這里也有兩個比較關鍵的技巧。
首先就是上傳的圖片要盡量清晰,比例最好是3:2,格式方面則是jpg或png。
其次依舊是Prompt,一定要有主體,然后可以根據“[主體]+[主體運動]+[背景]+[背景運動]”這樣的公式來撰寫Prompt。
當然如果沒有Prompt也是可以的,但AI就會根據自己的想法天馬行空地生成視頻了。
例如我們“喂”一張唐僧的照片:

然后根據剛才給的公式技巧,Prompt如下:
唐僧伸出手,戴上墨鏡。
由此,玩法(搞事情)就變得多起來了。
例如讓甄嬛和沈眉莊“破壁”相擁:
甄嬛眉莊跨屏擁抱。
老照片復活也不在話下:
胡適,轉身離開。
從種種效果來看,智譜AI的清影,是一個可以拿來直接上手用的那種類Sora了。
那么接下來的一個問題是:
怎么做到的?
在視頻生成這個領域中,輸出內容的一致性和連貫性,是決定最終效果的關鍵因素。
為此,據智譜AI所述,團隊自研了一個高效的三維變分自編碼器結構(3D VAE),將原視頻空間壓縮至2%大小,大大減少了視頻擴散生成模型的訓練成本及訓練難度。
在模型結構方面,智譜團隊則是采用因果三維卷積(Causal 3D convolution)為主要模型組件,移除了自編碼器中常用的注意力模塊,使得模型具備不同分辨率遷移使用的能力。
與此同時,在時間維度上因果卷積的形式也使得模型具備視頻編解碼具備從前向后的序列獨立性,這么做的目的是方便通過微調的方式向更高幀率與更長時間泛化。
從工程部署的角度,智譜AI是基于時間維度上的序列并行(Temporal Sequential Parallel)對變分自編碼器進行微調及部署,使其具備支持在更小的顯存占用下支持極高幀數視頻的編解碼的能力。

但除了內容的一致性和連貫性之外,視頻生成還存在的一個問題是——現在的視頻數據大多缺乏對應的描述性文本或者描述質量低下。
為此,智譜AI自研了一個端到端的視頻理解模型,用于為海量的視頻數據生成詳細的、貼合內容的描述。
如此一來便可以增強模型的文本理解和指令遵循能力,讓生成的視頻更符合用戶的輸入,能夠理解超長復雜Prompt指令。
最后,智譜AI還自研的一個將文本、時間、空間三個維度全部融合起來的Transformer架構。
它摒棄了傳統的cross attention模塊,而是在輸入階段就將文本embedding和視頻embedding concat起來,以便更充分地進行兩種模態的交互。
然而兩種模態的特征空間有很大差異,團隊通過expert adaptive layernorm對文本和視頻兩個模態分別進行處理來彌補這一差異,這樣可以更有效地利用擴散模型中的時間步信息,使得模型能夠高效利用參數來更好地將視覺信息與語義信息對齊。
其中注意力模塊采用了3D全注意力機制,先前的研究通常使用分離的空間和時間注意力或者分塊時空注意力,它們需要大量隱式傳遞視覺信息,大大增加了建模難度,同時它們無法與現有的高效訓練框架適配。
位置編碼模塊設計了3D RoPE,更有利于在時間維度上捕捉幀間關系,建立起視頻中的長程依賴。
以上便是智譜是如何煉成清影背后的關鍵技術實力了。
One More Thing
除了這次免費版之外,智譜AI還推出了付費版本,價格是這樣的:
- 5元:解鎖24小時的高速權益
- 199元:解鎖一年的高速權益
年費換算一下,也就是每天僅5毛4。
嗯,著實有點香。
體驗鏈接放下面了,感興趣的小伙伴可以去試試嘍~
https://chatglm.cn/video
- 看完最新國產AI寫的公眾號文章,我慌了!2025-12-08
- 給機器人打造動力底座,微悍動力發布三款高功率密度關節模組2025-12-08
- 云計算一哥10分鐘發了25個新品!Kimi和MiniMax首次上桌2025-12-03
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06




