通信巨頭入局視頻生成，直接霸榜權(quán)威評(píng)測(cè)：人物跨越多場(chǎng)景依然一致

克雷西 2024-12-05 15:03:37 來源：量子位

還能生成同步聲音

克雷西發(fā)自廣州
量子位 | 公眾號(hào) QbitAI

視頻生成模型評(píng)測(cè)權(quán)威榜單VBench，突遭“屠榜”。

這個(gè)突然殺出來的模型，就是中國(guó)電信人工智能研究院（TeleAI）剛剛發(fā)布的視頻大模型（VBench上的代號(hào)為TeleAI-VAST）。

而且16項(xiàng)子指標(biāo)有9項(xiàng)都是第一，大幅領(lǐng)先第二名。

其中更是有5項(xiàng)得分超過99%，并在物體分類和人體動(dòng)作兩項(xiàng)拿了滿分100%。

來看一段樣片（請(qǐng)移步公眾號(hào)）

這段短片中，四位女主角為尋找寶石，分別踏上了各自的冒險(xiǎn)之旅。

具體細(xì)節(jié)不展開太多，但關(guān)鍵之處在于，每個(gè)人物在各自的分鏡中，形象都和開頭的合影保持了一致。

要知道對(duì)于視頻生成來說，保持單個(gè)人物的前后一致就已經(jīng)不是一件容易的事，TeleAI視頻生成大模型卻一下處理了四個(gè)。

人物動(dòng)作精準(zhǔn)控制，還有音畫同步

除了開頭三分鐘的宣傳片，TeleAI展示了另外幾段作品。

第一段視頻中，女主角先后出現(xiàn)在公交車、馬路、酒吧吧臺(tái)和座位四個(gè)不同的場(chǎng)景。

在這四個(gè)場(chǎng)景中，人物的外貌、發(fā)型、衣著全都保持了一致，畫面整體的色調(diào)風(fēng)格也很統(tǒng)一。

這說明，TeleAI視頻生成大模型已經(jīng)實(shí)現(xiàn)了不同的場(chǎng)景變化下主體的時(shí)空一致性。

接下來的這段畫面里，兩只猴王展開了一場(chǎng)近距離對(duì)戰(zhàn)，期間的人物動(dòng)作、鏡頭跟隨，都已經(jīng)呈現(xiàn)出了電影級(jí)的水準(zhǔn)。

如果細(xì)節(jié)再繼續(xù)打磨優(yōu)化，拿來拍電影指日可待。

人物特征、時(shí)空一致性和動(dòng)作精準(zhǔn)性都有了，還能再做些什么呢？

目前的視頻生成模型大多生成的都是默片，這次TeleAI把聲音也加進(jìn)來了。

先看視頻（請(qǐng)移步公眾號(hào)）

從視頻中可以看到，TeleAI視頻生成大模型生成的聲音，不是單純地來上一段音樂那么簡(jiǎn)單。

仔細(xì)聽會(huì)發(fā)現(xiàn)，艦船的鳴笛聲、飛機(jī)起飛的轟鳴聲、潛水艇的水聲，以及最后火箭沖出水面的聲音，都與畫面中看到的內(nèi)容做到了同步。

也就是說，TeleAI視頻生成大模型作品中體現(xiàn)的一致性，已經(jīng)跨越模態(tài)了。

獨(dú)創(chuàng)兩階段生成架構(gòu)

不僅效果和成績(jī)優(yōu)秀，TeleAI視頻生成大模型的技術(shù)架構(gòu)也十分獨(dú)特。

它沒有采用傳統(tǒng)的路徑，而是全自研了一個(gè)“二階段視頻生成技術(shù)”——VAST（Video As Storyboard from Text）。

TeleAI團(tuán)隊(duì)沒有選擇一步到位，而是將視頻的生成分解成了兩個(gè)過程。

在第一階段，采用多模態(tài)大型模型根據(jù)文本輸入生成中間素材，包括姿勢(shì)、分割圖和深度信息。

TeleAI團(tuán)隊(duì)把這些中間表示稱作“故事板”，是模型能夠體現(xiàn)場(chǎng)景語義和結(jié)構(gòu)本質(zhì)的關(guān)鍵。

第二階段，才是真正的視頻生成。

利用基于DiT架構(gòu)的擴(kuò)散模型，TeleAI以這些表示為條件，結(jié)合目標(biāo)對(duì)象的文本描述和外觀信息，生成最終的視頻。

這種分段式的方式，使得生成視頻時(shí)能夠精確控制主體的位置、運(yùn)動(dòng)和視覺外觀。

而且，TeleAI視頻生成大模型不僅能在模型上分“階段”，還可以把視頻按場(chǎng)景分成“片段”。

當(dāng)創(chuàng)作者想要生成一段長(zhǎng)視頻時(shí)，視頻生成工具可以先設(shè)計(jì)具體的分鏡頭，開頭3分鐘的視頻就是用這種方法創(chuàng)作出來的。

針對(duì)每一個(gè)分鏡，生成具有一致性的生成中間素材，這些中間素材不僅作用于模型內(nèi)部，對(duì)創(chuàng)作者也是可見的，甚至還能進(jìn)行調(diào)整修改。

因?yàn)閷?duì)片段進(jìn)行了劃分，所以，只要在每個(gè)片段中都能保持人物一致性，可以生成的視頻長(zhǎng)度將是無限長(zhǎng)。

中國(guó)電信介紹，本次發(fā)布的視頻生成大模型將于明年開啟公測(cè)，可以期待一波新鮮的AI大片了。

各種模態(tài)全都有，還要做智能體

此次亮相的視頻生成大模型，是TeleAI整個(gè)大模型布局中的一個(gè)環(huán)節(jié)。

此前，TeleAI已經(jīng)自主了研發(fā)覆蓋語義、語音、視覺、多模態(tài)的“星辰”大模型能力體系。

星辰大模型在央企中唯一開源，還完成首個(gè)全國(guó)產(chǎn)化萬卡萬參大模型訓(xùn)練，并打造業(yè)界首個(gè)支持40種方言自由混說的語音識(shí)別大模型。

基礎(chǔ)模型之外，TeleAI還面向工業(yè)、教育等領(lǐng)域推出50多個(gè)場(chǎng)景大模型，并構(gòu)建了“星海”數(shù)據(jù)智能中臺(tái)，形成了9萬億Tokens高質(zhì)量數(shù)據(jù)集。

在使用方式上也另辟蹊徑，甚至推出了發(fā)短信和大模型對(duì)話的功能。

除了模態(tài)、場(chǎng)景、數(shù)據(jù)和使用方式，TeleAI也全新推出了大模型智能體平臺(tái)，與視頻生成大模型一同登上TeleAI開發(fā)者大會(huì)。

可以期待一下TeleAI下一波的AI產(chǎn)品了。

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

中國(guó)電信

克雷西

通信巨頭入局視頻生成，直接霸榜權(quán)威評(píng)測(cè)：人物跨越多場(chǎng)景依然一致

人物動(dòng)作精準(zhǔn)控制，還有音畫同步

獨(dú)創(chuàng)兩階段生成架構(gòu)

各種模態(tài)全都有，還要做智能體

相關(guān)閱讀

純國(guó)產(chǎn)萬卡集群煉出萬億參數(shù)大模型，被這家央企率先做到了！

中國(guó)電信邵廣祿：面向AI大模型的智算集群及網(wǎng)絡(luò)的實(shí)踐和展望

2分鐘，需求文檔變產(chǎn)品，國(guó)產(chǎn)大模型開發(fā)神器火爆WAIC

AI開源社區(qū)來了國(guó)家隊(duì)！華為百度第一時(shí)間加入

三大運(yùn)營(yíng)商借5G消息圍攻微信，就問張小龍怕不怕

三大運(yùn)營(yíng)商Q1凈利潤(rùn)均下滑，中國(guó)聯(lián)通降幅最高

熱門文章

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

“豆包手機(jī)”在二手市場(chǎng)價(jià)格都翻倍了……

谷歌新架構(gòu)突破Transformer超長(zhǎng)上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年

Ilya剛預(yù)言完，世界首個(gè)原生多模態(tài)架構(gòu)NEO就來了：視覺和語言徹底被焊死