單幀風景照變延時攝影,分分鐘搞定,還能有晝夜變化,這是來自日本的開源動畫景觀算法
邊策 魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
潮起浪涌,拍擊礁石。
你以為這是慢動作錄制的自然片段?
非也。
只要一張靜態風景照,幾分鐘之內,AI就能還原出這自然界的壯闊動態。
延時攝影,慢動作效果,一圖即可復現。
畫質是清晰的1080p,入門門檻卻不高,僅需一個GPU和幾百兆字節的預訓練數據。
紀錄片缺素材,后期制作太麻煩?有了這只AI就不怕了。
這項來自日本筑波大學的研究,登上計算機圖形學頂會SIGGRARH Asia,預訓練模型和代碼均已開源(地址見文末)。
還原自然的云卷云舒
這只AI,專注于自然界云與水的律動。
△輸出
△輸入
天上云卷云舒,水面云的倒影也會隨之移動。
不僅有空間移動,晨光暮色,亦能動態呈現。
△4倍速
像不像記錄片里的片段?
不僅如此,天空云涌,水面潮起,在這場AI的魔術表演中,就像在自然界中一樣兩不相誤。
與前輩作品相比,這樣的表現完全是大師級別。
△上排為前輩作品,下排為新方法
難怪網友驚嘆:這太美了!
原理
這一魔法的實現,需要以下相關的工作:光流預測、風格遷移、視頻預測等。
光流是一種描述圖像中各像素運動速度和方向的方法,根據物體相鄰兩幀的差異可以計算出圖像的光流,同樣也可以根據光流推測是視頻下一秒可能的樣子。
風格遷移通過感知損失的反向傳播來優化輸出圖像,在保留源內容的前提下,改變圖像的風格,而本文中,風格遷移的主要作用是對圖像中變化部分的顏色進行更改。
去年有人提出了通過風格遷移方法實現圖像的晝夜交替、四季更迭的轉換。而輸出視頻的難度在于要實現這種變換的平滑性。
下圖展示了視頻合成的整個流程:給定輸入圖像和控制未來變化的潛在代碼,運動預測器會生成將來的向后光流(backward flows)。
這些流使輸入圖像變形,合成添加了運動的圖像,然后將它們轉換為運動循環。
但是,僅僅讓圖片動起來還不夠,由于延時攝影的特點是時間長,在這段時間里,天色還會變暗。
因此還要對整張圖片的色調進行更改,不是簡單的調個色,而是要讓視頻畫面的顏色隨著時間推進平滑地過渡。
這就是外觀預測器負責的工作,它能夠更改運動預測器生成圖片的顏色,從而獲得輸出視頻。
在一般的循環推理中,錯誤會在循環的輸出幀中累積。而在這篇論文的運動預測中,這些光流在空間上是平滑的,因此對錯誤的敏感度較低。
此外,算法通過回溯到輸入圖像來重構每個預測幀,避免由于重復的顏色采樣而導致RGB值的錯誤累積。
運動預測器
訓練運動預測器的方法非常直接,最終目標就是讓模型預測的光流場與真實光流場之間的差異最小化。
至于推理過程,首先從單個輸入圖像生成加入的運動幀,通過線性混合(linear blending)使其循環,然后對每個幀進行顏色轉換。
在這個過程中反復使用預測幀作為下一個運動預測的輸入幀,重復此過程獲得多個幀。
但是自監督的環境中預測光流場是有挑戰性的,因為這本質上是要找到兩個具有較大自由度的連續幀之間的對應關系,這很容易陷入局部最優值中,從而產生不一致的流場。
為此,作者在預測和訓練階段都限制了輸出光流場的范圍,以一個常數除預測的光流場,限制它們的幅度范圍。事實也證明了這種方法的有效性。
外觀預測器
由于外觀預測器是使用輸入圖像和每個訓練視頻中兩幀之間任意幀來訓練的,因此需要一個潛在代碼來控制每個幀的外觀。
最終,顏色遷移圖通過輸入圖像和控制的潛在編碼來共同計算完成。這種方法避免了反復直接從輸入圖像預測導致隨時間變化的色彩。
日本團隊
論文的第一作者,是日本筑波大學計算機幾何與圖形實驗室(CGG)的副教授遠藤裕紀(Yuki Endo)。
另外兩位合作者,分別是同實驗室的金森佳宏(Yoshihiro Kanamori)副教授,和豐橋技術科技大學的栗山繁( Kuriyama Shigeru)教授。
傳送門
PyTorch代碼:https://github.com/endo-yuki-t/Animating-Landscape
項目地址:http://www.cgg.cs.tsukuba.ac.jp/~endo/projects/AnimatingLandscape/
論文地址:https://arxiv.org/abs/1910.07192
— 完 —
- 蘋果芯片主管也要跑路!庫克被曝出現健康問題2025-12-07
- 世界模型和具身大腦最新突破:90%生成數據,VLA性能暴漲300%|開源2025-12-02
- 谷歌新架構突破Transformer超長上下文瓶頸!Hinton靈魂拷問:后悔Open嗎?2025-12-05
- 90后華人副教授突破30年數學猜想!結論與生成式AI直接相關2025-11-26




