沒有綠幕,AI也能完美視頻摳圖,發絲畢現,毫無違和感 | CVPR
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
在陽臺上給小姐姐拍個視頻:
再把她P到噴泉廣場:
需要幾步?
現在,無需綠幕,AI 就能搞定這件事。
就像這樣,隨便用手機給小姐姐拍張照片,再在同一地點拍張不帶人像的背景圖。
深度神經網絡就能自動分析出 alpha 遮罩和前景色,把小姐姐的發絲都摳得根根分明。
視頻也是如此。
讓憋著笑的同事在實驗室白板前表演一段廣播體操,再給背景板單獨來一張,就可以無中生有把同事“轉移”到大廳里,引來路人圍觀了。
這是來自華盛頓大學的一項最新研究,無需綠幕,無需手動創建 Trimap,一個具有對抗性損失的深度神經網絡,就能準確預測遮罩,給照片和視頻摳圖。
論文已經中了 CVPR 2020,代碼即將開源。
深度摳圖網絡 + 鑒別器網絡
那么,這樣的摳圖特技是如何煉成的?
研究人員表示,是具有對抗性損失的深度網絡 + 判斷合成質量的鑒別器。
深度摳圖網絡
研究人員先在 Adobe Matting 數據集中的非透明對象子集上對深度神經網絡 G 進行了監督訓練。
輸入是帶人像的照片 I 和照片中的背景 B’,以及人像軟分割 S 和 運動先驗 M(僅對視頻而言)。
需要注意的是,在真實環境中,B’ 是通過在真實背景的前景區域隨機加入噪聲而生成的。
依據輸入,網絡會預測出 alpha 遮罩 α 和前景圖像 F。
研究人員提出用背景切換塊(Context Switching block,CS block)來取代基于殘差塊的編碼器-解碼器。
有什么不同?
舉個例子,當人的一部分與背景相匹配的時候,網絡會將更多精力放在該區域的細分線索上。
G 網絡有四個不同的編碼器,分別適用于 I,B’,S 和 M 四種輸入。每個編碼器分別生成256個通道的特征圖。
通過 1×1 卷積,BatchNorm 和 ReLU,I 中的圖像特征分別與 B’,S 和 M 結合,每一對組合都會生成 64 通道特征。
最后,將這 3 個 64 通道特征與原始的 256 通道圖像特征組合在一起,生成編碼后的特征,并傳遞到由殘差塊和編碼器組成的其余網絡。
在未標記真實數據上的對抗訓練
CS block 和數據增強的結合,可以有效彌合真實圖像與 Adobe數據集創建的合成圖像之間的差距,但真實圖像中仍然有存在一些難點:
- 將手指、手臂、頭發周圍的背景痕跡復制到遮罩中;
- 分割失敗;
- 前景色的重要部分與背景顏色接近;
- 人像照片和背景照片之間沒有對準。
為了應對這些問題,研究人員還提出了一種自監督方案,從未標記的真實數據(真實圖像 + 背景)中學習。
用深度摳圖網絡 G 的單獨副本 GReal 組成對抗網絡,對抗網絡會生成類似于 GAdobe 輸出的遮罩,而鑒別器網絡 D 會判別結果的真假。
研究人員使用真實輸入(手機拍攝)聯合訓練 GReal 和 D,并用 GAdobe 來提供監督。
與SOTA方法的對比
研究人員將新方法與以下幾種 SOTA 方法進行了定性比較:
- 基于 Trimap 的 Context Aware Matting (CAM)和 Index Matting(IM);
- 自動遮罩算法 Late Fusion Matting(LFM);
不難看出,效果改進著實明顯。
你覺得怎么樣?不妨mark一下,坐等開源。
畢竟有些大膽的想法,可能已經在醞釀了,是吧?
傳送門
項目地址:http://grail.cs.washington.edu/projects/background-matting/
— 完 —
- 蘋果芯片主管也要跑路!庫克被曝出現健康問題2025-12-07
- 世界模型和具身大腦最新突破:90%生成數據,VLA性能暴漲300%|開源2025-12-02
- 谷歌新架構突破Transformer超長上下文瓶頸!Hinton靈魂拷問:后悔Open嗎?2025-12-05
- 90后華人副教授突破30年數學猜想!結論與生成式AI直接相關2025-11-26



