當(dāng)Sora2遇上國產(chǎn) Vidu Q2,國產(chǎn)參考生真的更香了!一手親測
Vidu的「參考生」顯得更超前了
國慶假期Sora 2的橫空出世那叫一個(gè)吸睛,尤其是客串(Cameo)功能,直接把Sora拉到了“AI版抖音”的高度。
但有一說一,在國內(nèi),這個(gè)玩法早就已經(jīng)有了。
我們先上傳一張奧特曼的照片,來感受下最近比較火的秒變風(fēng)格的視頻:
奧特曼在房間關(guān)上燈,畫面瞬間變成漫畫風(fēng)格。

視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
這個(gè)功能叫做參考生,來自Vidu,模型選擇的是Vidu Q2。實(shí)際上Vidu 去年9月就在全球首個(gè)提出【參考生】視頻功能,Vidu Q2已經(jīng)是其參考生視頻的第5個(gè)迭代版本了。
而同樣的提示詞給到Sora 2,它生成的效果是這樣的:

視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
可以看到,Sora 2并沒有g(shù)et到我們提示詞里的“關(guān)燈”,而是選擇碰了一下門把手,并且視頻開頭也是較為昏暗。
(雖然語義理解不佳,但Sora 2的優(yōu)勢是音視頻可以一鍋出。)
而且劇透一個(gè)好消息,據(jù)說在這個(gè)月底,Vidu Q2參考生視頻還會迎來重大的更新。
我們已經(jīng)拿到了內(nèi)測資格,因此,按照老規(guī)矩,一波實(shí)測,走起~
Vidu Q2參考生視頻 PK Sora2
Vidu Q2的參考生功能,從操作角度來看,一大優(yōu)勢就是可以上傳多張圖片(參考圖可以多達(dá)7個(gè)),然后一句話讓它們直接聯(lián)動起來,像這樣:

對生成視頻的結(jié)果,我們還可以選擇時(shí)長、清晰度、寬高比和一次生成視頻的數(shù)量等:

從這個(gè)角度來看,參考生在操作上確實(shí)是要比Sora 2要靈活得多。
那么接下來,我們就進(jìn)一步從不同維度來一場PK。
Round 1:一致性大比拼
畢竟一致性是視頻生成領(lǐng)域一直以來的一大痛點(diǎn),因此第一輪的比拼,咱們就來看看它倆是否能做到前后一致。
有請金牌銷售——奧特曼:
奧特曼介紹一下圖中的包包。

視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
可以看到,Vidu Q2在生成視頻的過程中,無論是包包還是人物,全程沒有異常的變化。
并且放大圖片做對比,包包各處拼接的顏色也是與原圖高度相符:

同樣的Prompt,我們再來“喂”給Sora 2,依舊是讓奧特曼來介紹:

視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
Sora 2依舊的優(yōu)勢在于奧特曼說著中文介紹著這款包包,但……
最基本的一致性卻沒有保持住,甚至包包各處的顏色都已經(jīng)變了樣,連包帶兒都時(shí)而三條時(shí)而兩條。

整體來看,一致性這塊兒,Vidu Q2可以說是完勝了。
Round 2:物理規(guī)律遵循
除了一致性之外,另一個(gè)考量AI視頻生成好壞的因素,就要屬遵循物理規(guī)律了。
接下來,我們來上一點(diǎn)難度,參考圖是這樣的:

這張圖的難點(diǎn)顯而易見,就是考驗(yàn)大模型們是否能精準(zhǔn)的按照物理規(guī)律,把舞者在鏡中各個(gè)角度的姿態(tài)表現(xiàn)出來。
Vidu Q2請聽題:
圖中的女子在圖中的舞蹈房內(nèi),從圖片中的動作開始,翩翩起舞,動作流暢一致,鏡面反射出舞蹈全景,鏡頭緩慢環(huán)繞捕捉舞蹈細(xì)節(jié)。

視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
畢竟這道題目的難度系數(shù)較高,雖然還是有一點(diǎn)細(xì)節(jié)出錯(cuò),但Vidu Q2參考生整體的表現(xiàn)還算是不錯(cuò)。
但到了Sora 2這里,“華點(diǎn)”就有點(diǎn)多了。
首先還是老問題,不允許上傳包含寫實(shí)人物的圖像;于是,我們便替換成了一張動漫的人物:

結(jié)果……動漫人物依舊是無法生成……索性我們就直接用文字Prompt去生成:

視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
從最終的結(jié)果來看,能看清的人物(包括鏡面里)有3位,整體完成度較高;配上了音樂也是比較加分(雖然最后誤闖進(jìn)一位攝影師)。
整體來看,在遵循物理規(guī)律方面,兩位選手可以說是各有亮點(diǎn)。
Round 3:運(yùn)鏡哪家強(qiáng)?
最后,在一致性和物理規(guī)律之后,AI視頻生成中運(yùn)鏡的使用,也是非常加分的一點(diǎn)。
這次的參考圖是這樣的:

運(yùn)鏡方面,我們分了三段Prompt:
0-1s鏡頭1,頭發(fā)飄揚(yáng),拉開弓,超近特寫,背景是黑暗森林閃著奇幻的光,箭射出去。切鏡頭。
1-6s鏡頭2,黑暗游拿著弓在黑暗森林里快速跑動跳躍,鏡頭自由跟隨,特寫全身自由切換,在樹林中穿梭,急速大幅度不斷跳躍,閃爍。切鏡頭。
6-8s鏡頭3,一個(gè)旋轉(zhuǎn)鏡頭環(huán)繞人臉慢動作特寫,露出邪魅的笑容。
首先是Vidu Q2的表現(xiàn):

視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
如何?是不是有動漫片段的效果了?
鏡頭是僅僅跟隨人物,從近景到遠(yuǎn)景再到拉近,可謂是一氣呵成。
接下來是Sora 2的表現(xiàn):

視頻地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
可以明顯看到,Sora 2生成的切鏡會更多,而Vidu是一鏡到底的跟隨運(yùn)鏡。
因此,這一輪,兩者各有優(yōu)勢,Vidu Q2 參考生更符合日常動漫中鏡頭運(yùn)鏡語言,Sora 2的不停切鏡則渲染了緊張的氛圍。
中美視頻生成PK,已經(jīng)來到了Next Level
通過以上幾個(gè)維度的實(shí)測,我們可以清晰地看到當(dāng)前AI視頻生成領(lǐng)域的發(fā)展現(xiàn)狀 。
在這次Vidu Q2參考生視頻與Sora 2的直接PK中,兩者幾乎打了個(gè)平手。
Sora 2在音視頻同步輸出方面具備優(yōu)勢 ,但在更關(guān)乎視頻內(nèi)容核心質(zhì)量的維度上,Vidu Q2參考生視頻展示了其獨(dú)到的處理能力。
不過有一說一,這場比拼的意義遠(yuǎn)不止于評判兩個(gè)模型孰優(yōu)孰劣,它更揭示了行業(yè)未來的走向正逐漸被實(shí)際應(yīng)用的需求所定義 。
AI視頻技術(shù)能否成功的關(guān)鍵,在于它是否能從一個(gè)僅能生成驚艷片段的玩具,轉(zhuǎn)變?yōu)橐粋€(gè)能無縫融入創(chuàng)作者工作流的生產(chǎn)力工具 。
當(dāng)下的創(chuàng)作者需要的不僅僅是隨機(jī)、不可控的創(chuàng)意火花,而是能夠精確執(zhí)行指令、穩(wěn)定復(fù)現(xiàn)角色的可靠伙伴。
這正是一致性等功能所具備的戰(zhàn)略價(jià)值 。保持角色和場景、道具的一致,是實(shí)現(xiàn)AI短劇、AI數(shù)字人廣告乃至虛擬偶像IP等一系列商業(yè)應(yīng)用的基礎(chǔ) 。
如果每一次生成的人物都面目全非,那么任何形式的敘事都無從談起。Vidu Q2參考生視頻在此處的深耕,本質(zhì)上是在嘗試解決AI視頻工業(yè)化生產(chǎn)的核心難題。
即將技術(shù)轉(zhuǎn)化為可規(guī)模化、可商業(yè)化的穩(wěn)定產(chǎn)出 。
從這個(gè)角度看,構(gòu)建真正的“AI版抖音”,比拼的也絕非單一的視頻生成效果 。這個(gè)戰(zhàn)場是一個(gè)包含了從創(chuàng)意構(gòu)思到內(nèi)容生成、再到精細(xì)化編輯、分發(fā)與商業(yè)化的完整生態(tài)。

△創(chuàng)作者@陳暢用Vidu Q2參考生制作的短片
在生態(tài)方面,Vidu 目前基于產(chǎn)品矩陣構(gòu)建了主體庫共享生態(tài),商業(yè)化生態(tài),創(chuàng)作者生態(tài)等,核心模型產(chǎn)品驅(qū)動的完整生態(tài)才是其最大的競爭壁壘。
因此,這場技術(shù)競賽不僅是中美頂級模型之間的一次較量,更應(yīng)該被視為AI視頻生產(chǎn)力革命的序章 。
無論是Sora 2還是Vidu Q2,它們的快速迭代都在推動著技術(shù)的成熟和成本的降低 。
One More Thing
正如我們在最開始預(yù)告的,Vidu Q2參考生視頻要在這個(gè)月底有一波重大的更新。
據(jù)悉Vidu Q2 參考生不僅能支持專業(yè)半專業(yè)用戶群體的真實(shí)需求,同時(shí)也能完全滿足廣告電商、影視動漫短劇、互動娛樂等商業(yè)領(lǐng)域客戶的更高要求,此外,使用體驗(yàn)也將對C端用戶非常友好。
我們可以大膽猜測一波,生數(shù)科技Vidu這次是否也要將音頻的模態(tài)容納進(jìn)來呢?
Vidu Q2體驗(yàn)地址:
https://www.vidu.cn/create/character2video




