真·拿嘴做視頻！Meta「AI導演」一句話搞定視頻素材，網(wǎng)友：我已跟不上AI發(fā)展速度

alex 2022-09-30 13:06:16 來源：量子位

魚羊 Alex 發(fā)自凹非寺

量子位 | 公眾號 QbitAI

畫家執(zhí)筆在畫布上戳戳點點，形成手繪作品獨有的筆觸。

你以為這是哪部紀錄片的畫面？

No，No，No！

視頻里的每一幀，都是AI生成的。

還是你告訴它，來段“畫筆在畫布上的特寫”，它就能直接整出畫面的那種。

不僅能無中生畫筆，按著馬頭喝水也不是不可以。

同樣是一句“馬兒喝水”，這只AI就拋出了這樣的畫面：

好家伙，這是以后拍視頻真能全靠一張嘴的節(jié)奏啊……

不錯，那廂一句話讓AI畫畫的Text to Image正搞得風生水起，這廂Meta AI的研究人員又雙叒給生成AI來了個超進化。

這回是真能“用嘴做視頻”了：

AI名為Make-A-Video，直接從DALL·E、Stable Diffusion搞火的靜態(tài)生成飛升動態(tài)。

給它幾個單詞或幾行文字，就能生成這個世界上其實并不存在的視頻畫面，掌握的風格還很多元。

不僅紀錄片風格能hold住，整點科幻效果也沒啥問題。

兩種風格混合一下，機器人在時代廣場蹦迪的畫面好像也沒啥違和感。

文藝小清新的動畫風格，看樣子Make-A-Video也把握住了。

這么一波操作下來，那真是把不少網(wǎng)友都看懵了，連評論都簡化到了三個字母：

而大佬LeCun則意味深長地表示：該來的總是會來的。

畢竟一句話生成視頻這事兒，之前就有不少業(yè)內(nèi)人士覺得“快了快了”。只不過Meta這一手，確實有點神速：

比我想象中快了9個月。

甚至還有人表示：我已經(jīng)有點適應不了AI的進化速度了……

文本圖像生成模型超進化版

你可能會覺得Make-A-Video是個視頻版的DALL·E。

實際上，差不多就是這么回事兒（手動狗頭）。

前面提到，Make-A-Video是文本圖像生成（T2I）模型的超進化，那是因為這個AI工作的第一步，其實還是依靠文本生成圖像。

從數(shù)據(jù)的角度來說，就是DALL·E等靜態(tài)圖像生成模型的訓練數(shù)據(jù)，是成對的文本-圖像數(shù)據(jù)。

而Make-A-Video雖然最終生成的是視頻，但并沒有專門用成對的文本-視頻數(shù)據(jù)訓練，而是依然靠文本-圖像對數(shù)據(jù)，來讓AI學會根據(jù)文字復現(xiàn)畫面。

視頻數(shù)據(jù)當然也有涉及，但主要是使用單獨的視頻片段來教給AI真實世界的運動方式。

具體到模型架構上，Make-A-Video主要由三部分組成：

文本圖像生成模型P
時空卷積層和注意力層
用于提高幀率的幀插值網(wǎng)絡和兩個用來提升畫質(zhì)的超分網(wǎng)絡

整個模型的工作過程是醬嬸的：

首先，根據(jù)輸入文本生成圖像嵌入。

然后，解碼器Dt生成16幀64×64的RGB圖像。

插值網(wǎng)絡↑F會對初步結果進行插值，以達到理想幀率。

接著，第一重超分網(wǎng)絡會將畫面的分辨率提高到256×256。第二重超分網(wǎng)絡則繼續(xù)優(yōu)化，將畫質(zhì)進一步提升至768×768。

基于這樣的原理，Make-A-Video不僅能根據(jù)文字生成視頻，還具備了以下幾種能力。

將靜態(tài)圖像轉成視頻：

根據(jù)前后兩張圖片生成一段視頻：

根據(jù)原視頻生成新視頻：

刷新文本視頻生成模型SOTA

其實，Meta的Make-A-Video并不是文本生成視頻（T2V）的首次嘗試。

比如，清華大學和智源在今年早些時候就推出了他們自研的“一句話生成視頻”AI：CogVideo，而且這是目前唯一一個開源的T2V模型。

更早之前，GODIVA和微軟的“女媧”也都實現(xiàn)過根據(jù)文字描述生成視頻。

不過這一次，Make-A-Video在生成質(zhì)量上有明顯的提升。

在MSR-VTT數(shù)據(jù)集上的實驗結果顯示，在FID（13.17）和CLIPSIM（0.3049）兩項指標上，Make-A-Video都大幅刷新了SOTA。

此外，Meta AI的團隊還使用了Imagen的DrawBench，進行人為主觀評估。

他們邀請測試者親身體驗Make-A-Video，主觀評估視頻與文本之間的邏輯對應關系。

結果顯示，Make-A-Video在質(zhì)量和忠實度上都優(yōu)于其他兩種方法。

One More Thing

有意思的是，Meta發(fā)布新AI的同時，似乎也拉開了T2V模型競速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了，創(chuàng)始人兼CEO Emad放話道：

我們將發(fā)布一個比Make-A-Video更好的模型，大家都能用的那種！

而就在前幾天，ICLR網(wǎng)站上也出現(xiàn)了一篇相關論文Phenaki。

生成效果是這樣的：

對了，雖然Make-A-Video尚未公開，但Meta AI官方也表示，準備推出一個Demo讓大家可以實際上手體驗，感興趣的小伙伴可以蹲一波了~

論文地址：
https://makeavideo.studio/Make-A-Video.pdf
參考鏈接：
[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video

AI Meta 視頻生成

alex

真·拿嘴做視頻！Meta「AI導演」一句話搞定視頻素材，網(wǎng)友：我已跟不上AI發(fā)展速度

文本圖像生成模型超進化版

刷新文本視頻生成模型SOTA

One More Thing

相關閱讀

Dior迪奧與美圖達成合作，共同開發(fā)AI測膚功能

我，AI專家，模型檢測COVID-19準確率高達97.5%，約嗎

Llama慘遭拋棄！Meta內(nèi)部改用Claude寫代碼

中國AI大模型創(chuàng)業(yè)「6+2」格局 | 量子位智庫

AI教你畫油畫：任意畫風都可駕馭，筆畫序列秒秒鐘呈現(xiàn)，百度南大團隊打造 | Reddit高贊

10秒整理搜索結果，腦圖表格一鍵生成，網(wǎng)友：搜索終于有了該有的樣子

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創(chuàng) 語音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元