千萬別讓富堅義博看到這個
一句話生成動漫
明敏 蕭簫 發自 凹非寺
量子位 | 公眾號 QbitAI
先來看一段高清版的《清明上河圖》:
你能看出這幅畫與原作的差異嗎?
其實,這是AI續畫的一段《清明上河圖》,一眼望去,這畫面還真是有些真 假 難 辨了。
筆墨色彩幾乎完全復刻了原作。
無論是房屋樹木,還是市集中熙熙攘攘的人群,AI的筆法都抓到了原作的風格神韻,拼在一起乍一看還真認不出來。
△左是原作,右是AI復刻
畫質還是38912×2048像素的那種,能直接把畫面拉大3、4倍看細節。
喏,店鋪里的小人在干啥看得一清二楚,體態和衣著也各不相同。
這就是由全華人團隊打造的AI——女媧·無限版 (NUWA INFINITY)。
只要給它喂一些圖片、或是輸入一段文字,它就能進行更細致的拓展,最終生成一幅完整的高清圖像、甚至是一段流暢視頻。
這是它學習了《清明上河圖》之后,畫出的完整版“大作”。
論文前腳剛上傳到arXiv,推特上就已經引發各路網友狂呼amazing!
還有油管博主光速更新視頻講解。標題直接用上了“超越DALL·E 2”、“4K”的字眼。
除了續畫《清明上河圖》之外,微軟的經典藍天白云壁紙,經它之手都能變成無限加長版。
還能根據文本提示,在圖像上加不同元素:要光有光,要雪有雪。(這還真是女媧技能了)
相較于當下熱門的DALL·E、Imagen和Parti,女媧無限版支持生成任意大小的高分辨率圖像, 同時還支持生成長視頻。
(沒錯,繼AI續寫小說熱潮之后,現在AI終于也能續畫了)
研究人員表示,他們希望這一模型能夠幫助創作者們提高生產力。
所以,女媧無限版還有什么大招?
我們一起來看~
風格完美模仿,圖像視頻生成全搞定
總體來看,這個AI女媧無限版是個全能選手,可以挑戰5種高清視覺任務。
分別是:
- 讓圖像動起來(Image Animation)
- 根據文本生成視頻(Text-to-Video)
- 根據文本生成圖像(Text-to-Image)
- 圖像補全(Image Outpainting)
- 圖像生成(Image Generation)
先來看讓圖像動起來的效果。
一張靜態的沙灘照片經AI之手后,圖中的海浪都能自然地拍打海岸,層層疊疊仿佛是真實的景色一般。
一句話生成視頻就更讓人驚喜了。
這不,給它一個小豬佩奇原版的視頻,然后再輸入一句話,這位“女媧”就能自己做動畫片了。
這效果完全看不出是AI做的啊,分辨率也達到了1280×1024。甚至都能拿去蒙騙小孩子?
(嗯,別讓富堅義博看到這個AI……)
能根據文本搞定視頻,當然圖像也不在話下。
給AI一張風景照,再輸入不同的文本表示,它就能根據需要在照片中加各種元素了。
比如滾滾海浪、群山環繞、星空、云彩等,都可搞定。
接下來則是文本圖像生成了。這個任務可以說是DALL·E2、Imagen和Parti的“拿手好戲”,也是這段時間幾大模型battle的核心。
不過從生成效果來看,NUWA-Infinity也同樣“可以一戰”。
△“微軟已加入戰場”
輸入“田野上有房子、天空中有云彩”,女媧無限版立刻呈現出了一張景色優美的照片。
分辨率高達4069×1024,仿佛是拿單反真實拍下的一樣。
最后,就是NUWA-Infinity的核心能力——“續畫”了。
在補充圖像上,這只AI已經挑戰了不少世界名畫,并且都可以做到幾乎以假亂真。
梵高筆下的星空,它能補充浩瀚深邃的畫面。
筆觸連接的地方十分絲滑,整體畫面的協調感也很高。
莫奈的名作也能信手拈來。
值得一提的是,原畫中人物的影子沿著右下方拉去,AI在補充畫面的時候,還非常聰明地在左邊補充了太陽。
陽光灑在海面上,波光粼粼的細節都畫出來了。
除了世界名畫以外,風景照片同樣也能補全啦。
這效果,仿佛它就在拍照現場,直接把原本的畫面搬了上來。
那么,NUWA-Infinity究竟是怎么擁有“續畫”的能力呢?
基于自回歸的“無限視覺合成”
與DALL·E和Imagen最大的不同在于,NUWA-Infinity在圖像生成上沒有采用擴散模型。
這是因為,擴散模型雖然在圖像生成上效果不錯,但它沒有辦法改變輸出圖像的大小,包括訓練和推理圖像的寬高是被預先定義好的。
因此,為了讓模型學會“續畫”,論文提出了一種基于自回歸的自回歸生成模型(autoregressive over autoregressive generation),訓練時將圖像被分成很多個小塊,然后再對每個小塊(patch)分別進行訓練。
不過,如果只對這些patch單獨訓練,容易導致合成圖像時出現“不和諧”的結果,例如把頭發p到臉上等等。
因此,與一些基于GAN的模型直接對每個patch進行獨立訓練不同,NUWA-Infinity在進行訓練時,有意識地去加強各個patch之間的“依賴性”。
除了對每個patch進行獨立訓練以外,NUWA-Infinity在推理圖像時,還會要求各patch與周圍的patch產生“聯系”,讓生成的圖像更具有連續效果。
當然,推理出圖像或視頻的步驟,在NUWA-Infinity做不同任務時也不一樣。
由于文本是一維數據,圖像是二維(寬+長)數據,視頻則是三維數據(寬+長+時間),因此NUWA-Infinity在做不同任務時,推理的順序也不同。
例如,在“補全圖像”的過程中,圖像推理是一圈一圈向外生成的;而在文本生成圖像、或是視頻文本生成時,這些推理的順序又有不一樣的變化:
不過,NUWA-Infinity也還有一些局限性,例如與DALL·E2和Imagen不同的是,它是在特定數據集(清明上河圖、小豬佩奇等)上訓練的。
因此,一方面NUWA-Infinity在更一般的數據集上是否也能表現出這么好的效果,還有待佐證;
另一方面,在文本生成圖像上,目前作者并沒有將它這一能力與DALL·E2和Imagen等模型進行對比,因此在這一任務上并不能說它是最優秀的,只能說生成圖像大小上減少了一些限制。
作者:代碼在盡力肝了
論文的一作吳晨飛(Chenfei Wu),博士畢業于北京郵電大學,現工作于微軟亞研院。
在北郵讀博期間,他在NeurIPS和ACM Multimedia等頂會上發表過不少與視覺問答(VQA)相關的論文。
△圖源北郵計算機學院
共同一作梁健, 來自北京大學。
值得一提的是,去年被ECCV 2022收錄的NUWA論文,也是這兩位作者合作產出的。
此外,來自微軟Azure AI團隊的Xiaowei Hu、Zhe Gan、Jianfeng Wang、Lijuan Wang、Zicheng Liu,以及北大副教授方躍堅也參與了此次研究,通訊作者則是微軟亞研院的高級研究員&研究經理段楠。
對于這項研究本身,有網友調侃:才注冊完DALL·E2測試版就看到這個,快跟不上節奏了……
還有網友大膽想象“有生之年”系列:以這個速度,世紀結束前我們是不是能玩上“可實時生成”的定制VR游戲了?
但對于研究的效果,也有讀者懷疑是在“吹牛”,因為這次的“無限版”NUWA還并沒有開源。對此作者之一Zhe Gan回應表示:
我們也很想放出代碼,正在努力ing。
此外也有讀者對于AI“續畫”的能力提出了疑問:
對于AI來說,到底是“續”一幅畫難,還是從0生成一個圖像更難?
你覺得呢?
論文地址:
https://arxiv.org/abs/2207.09814
項目地址:
https://nuwa-infinity.microsoft.com/#/
參考鏈接:
[1]https://twitter.com/_akhaliq/status/1549954767585173505
[2]https://twitter.com/zhegan4/status/1549970325705658369
[3]https://scs.bupt.edu.cn/info/1027/1798.htm
[4]https://www.youtube.com/watch?v=_KvGSf1y0MU
- DeepSeek-V3.2-Exp第一時間上線華為云2025-09-29
- 你的AI助手更萬能了!天禧合作字節扣子,解鎖無限新功能2025-09-26
- 你的最快安卓芯片發布了!全面為Agent鋪路2025-09-26
- 任少卿在中科大招生了!碩博都可,推免學生下周一緊急面試2025-09-20



