用GAN也可以P圖,效果還不輸PS | 英偉達出品
給自己多P點頭發
把人的眼睛變大、把閉著的嘴合上、轉動眼珠:
質量如此逼真、一點糊圖的痕跡都沒出現——
如果我不說,你知道這其實是GAN自己P的嗎?
除了人臉,汽車啊鳥啊貓啊也都可以,比如改改車輪大小、換個車軸樣式:
把小鳥的喙部變長、頭抬高、胸脯變壯:
用動圖展示就更炫酷了:
大點大點,圓點圓點,頭發再多一點……
怎么樣,這GAN的效果是不是也不輸PS?
一個高質量P圖GAN
以上這些都來自一個叫做EditGAN的模型,可以對圖像實現很多細節上的編輯,同時還能保持原圖質量。
研究出自英偉達、多倫多大學以及MIT,相關論文已被NeurIPS 2021接收。
在此之前,大多數基于GAN的圖像編輯方法往往都需要大規模數據集上的語義分割注釋才能訓練,并且也只能做一些有限的修改,有的甚至只是在兩張圖之間簡單地進行插值。
EditGAN作為一種全新方法,只需少量語義標記就能訓練。
它會把原圖像分割成高度精細的語義塊(segmentation mask),有多精細呢?
就比如下面這張人臉圖,被足足按30種語義進行了分割:
而在一個交互工具中(還未開放地址),只需操作這些語義塊就可以對相應部分進行修改。
EditGAN的關鍵思想在于利用圖像和語義分割的聯合分布p(x, y) 。
具體來說就是給定要編輯的新圖像x,將其嵌入到EditGAN的潛空間,由于語義分割圖和RGB圖像共享相同的潛碼,所以可以得到相應的分割圖y。
接著,使用簡單的交互式數字繪畫或標簽工具,可以根據所需的編輯手動修改分割圖y。
然后進行共享潛碼的優化,以保持新分割圖與真實圖像的RGB外觀一致,如圖所示:
相應的梯度則通過共享生成器反向傳播而成。
結果就是潛空間中的編輯向量δw + edit。
此外,EditGAN通過學習提煉各種各樣的編輯向量,可以直接應用于新的圖像。
還可以泛化到繪畫作品上
真實質量如何?
研究人員在在四個不同類別的圖像上對EditGAN進行評估:汽車(空間分辨率384×512)、鳥類(512×512)、貓(256×256)和人臉(1024×1024)。
- 定性實驗結果
將EditGAN此前學習的編輯向量應用于新圖像,經過30個優化步驟的細化,EditGAN的編輯操作保持了原圖像的質量。
用它進行高精度細節編輯的效果也很好,比如下面左圖對輪軸的旋轉,右圖對瞳孔大小的修改:
在下面這種高清的圖像上效果就更好了:
作者表示,目前其他方法都還不能達到這樣的效果。
此外,EditGAN也有很強的泛化能力,比如在下面這種繪畫等風格的人像上,做點小表情毫無違和感。
- 定量實驗結果
和基于MaskGAN的smile編輯基準的模型相比,EditGAN則實現了最佳屬性精度和ID分數。
最后,和所有基于GAN的圖像編輯方法一樣,EditGAN僅限于應用到由GAN建模的圖像上。
作者介紹
一作凌歡,多倫多大學博士生,同時在該校人工智能研究院(Vector Institute)和英偉達做研究。
共同一作Karsten Kreis,英偉達高級研究科學家,2018年以博士學位畢業德國馬普高分子所。
其余作者包括:英偉達多倫多AI Lab的Li Daiqing,多倫多大學的Seung Wook Kim,以及MIT教授Antonio Torralba。
通訊作者為一作導師,多倫多大學副教授,英偉達AI總監Sanja Fidler。
論文地址:
https://arxiv.org/abs/2111.03186
項目主頁:
https://nv-tlabs.github.io/editGAN/
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發場景,專為企業私有部署設計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數學和計算機最高獎“雙料王”出現了2024-04-10
- 8.3K Stars!《多模態大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10




