字節(jié)AI實(shí)習(xí)生搞出這個(gè)玩意兒,撩到了圖靈獎(jiǎng)大神,我用了用結(jié)果畫風(fēng)逐漸鬼畜起來……
只需100對(duì)圖像訓(xùn)練1小時(shí)
夢(mèng)晨 魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
這樣的于和偉老師,還是你熟悉的那個(gè)“接著奏樂接著舞”的feel嗎?
而如果容嬤嬤也進(jìn)入到這個(gè)次元,畫風(fēng)竟然……
啊,是世外高人的感覺沒錯(cuò)了,容嬤嬤不愧是童年真神!
那如果把互聯(lián)網(wǎng)大佬們變成這樣的畫風(fēng),又會(huì)是怎樣一種場(chǎng)面?
先看看雷軍,端的是劍眉星目,風(fēng)流倜儻。
再看BAT的三位大佬……
好家伙,感覺可以直接看圖寫作,去橙光游戲整一個(gè)《互聯(lián)網(wǎng)風(fēng)云錄之三雄爭(zhēng)霸》了。
(萬字腹稿已就位……)
連歪果仁,也能被這個(gè)次元統(tǒng)一畫風(fēng)。
看圖靈獎(jiǎng)得主、深度學(xué)習(xí)三巨頭,Bengio狷狂,Hinton堅(jiān)毅,LeCun冷傲,絕世高手的feel直接拉滿,隨時(shí)可以華山論劍走一波。
△Hinton大佬小說男主臉實(shí)錘
連LeCun本人看了,都忍不住轉(zhuǎn)發(fā):
想必你也看出來了,這確實(shí)又是GAN的杰作。
不過這個(gè)來自字節(jié)跳動(dòng)的GAN屆新秀,可不止是能當(dāng)橙光游戲立繪帶師。
卡通風(fēng):
油畫風(fēng):
甚至是特朗普風(fēng)……
只要男女各100張照片作為訓(xùn)練樣本,讓AgileGAN看上1個(gè)小時(shí),它就都能信手拈來。
即使照片上的人戴了口罩,也能把臉補(bǔ)全:
還會(huì)自動(dòng)把帽子轉(zhuǎn)換成頭發(fā)。戴的帽子越多頭發(fā)就越密,如果戴5層帽子,就是這樣了:
甚至還能開發(fā)出一些鬼畜玩法,比如把生成的圖像再喂回去……
△LeCun變美女
而培養(yǎng)出這么一個(gè)文能繪圖、武能鬼畜的GAN的,是字節(jié)跳動(dòng)和南洋理工大學(xué)。一作宋果鮮,目前在字節(jié)跳動(dòng)擔(dān)任研究實(shí)習(xí)生。
并且,AgileGAN的相關(guān)論文已經(jīng)入選SIGGRAPH 2021。
只需100對(duì)樣本訓(xùn)練1小時(shí)
之所以命名為AgileGAN?(敏捷GAN),是因?yàn)樗谝粔KV100上訓(xùn)練時(shí)間只需要1小時(shí),訓(xùn)練數(shù)據(jù)集也只需要大概100對(duì)樣本(男女各100張)。
這么強(qiáng),怎么做到的?
要知道風(fēng)格遷移的一大難點(diǎn),就是如照片到卡通這種面部幾何形狀變化較大的遷移。
如果過于強(qiáng)調(diào)保留幾何形狀特征,會(huì)造成不符合審美的扭曲與瑕疵。
但是保留的少了遷移完就和輸入的照片不像了。
△以前的算法不是臉發(fā)綠就是五官扭曲
這是因?yàn)?,風(fēng)格遷移算法如StyleGAN2,通把照片的特征編碼成向量,逆映射(Inversion Mapping)到隱空間?(Latent Space)。
在此基礎(chǔ)上對(duì)向量進(jìn)行變換,再映射回圖像,就能產(chǎn)生加減年齡,轉(zhuǎn)換性別的效果。
△圖源 GAN Inversion: A Survey
但是AgileGAN團(tuán)隊(duì)發(fā)現(xiàn),像StyleGAN2那樣尋找最佳的隱空間映射是行不通的,因?yàn)檫m用于真實(shí)照片的映射并不一定適用于其他風(fēng)格。
AgileGAN以StyleGAN2為基礎(chǔ)進(jìn)行改進(jìn),解決辦法分為兩部分。
第一個(gè)是層級(jí)變分自編碼器?(hierarchical Variational Eutoencoder,簡(jiǎn)稱hVaE)。
在確保映射隱空間分布符合原始高斯分布的同時(shí),將原來的一個(gè)隱空間分成不同分辨率的多個(gè)隱空間,可以更好地編碼圖像中不同層次的細(xì)節(jié)。
第二個(gè)是從StyleGAN2的預(yù)訓(xùn)練權(quán)重開始,重新微調(diào)出一個(gè)屬性感知的生成器。
包括不同屬性(如性別、年齡)的多個(gè)生成路徑和多個(gè)判別器,以更好地實(shí)現(xiàn)依賴屬性的風(fēng)格遷移。
StyleGAN2生成器和屬性感知的生成器這兩個(gè)訓(xùn)練階段是獨(dú)立執(zhí)行的,可以并行訓(xùn)練。
這樣分開操作不僅減少了需要的訓(xùn)練數(shù)據(jù)集大小,還使風(fēng)格遷移擁有更大的靈活性。
不過使用小數(shù)據(jù)集時(shí)判別器容易過擬合。解決辦法是加入一個(gè)早期停止策略,一旦風(fēng)格化效果達(dá)到預(yù)期,就停止訓(xùn)練。
這還沒完,如果用上一階運(yùn)動(dòng)技術(shù)(First Order Motion),AgileGAN還可以完成視頻的風(fēng)格遷移。
字節(jié)跳動(dòng)實(shí)習(xí)生一作
另外,AgileGAN還是個(gè)“實(shí)習(xí)生作品”,成型于一作宋果鮮在字節(jié)跳動(dòng)實(shí)習(xí)期間。
宋果鮮,本科畢業(yè)于中科大數(shù)學(xué)專業(yè),目前正在南洋理工大學(xué)攻讀計(jì)算機(jī)科學(xué)博士學(xué)位。同時(shí),他也是字節(jié)跳動(dòng)美國(guó)AI實(shí)驗(yàn)室的實(shí)習(xí)生。
他的研究方向主要是計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué),包括基于圖像的3D人臉重建/分析、VR/AR應(yīng)用等等。
所以,在AgileGAN眼里,宋同學(xué)又是什么樣的呢?
發(fā)量和發(fā)質(zhì),真的很優(yōu)秀了。
說起來,沒準(zhǔn)以后就能在抖音直接玩上這樣的GAN了。
要是等不及,作者已經(jīng)放出了試玩版:
http://www.agilegan.com/
論文地址:
https://guoxiansong.github.io/homepage/paper/AgileGAN.pdf
項(xiàng)目地址:
https://guoxiansong.github.io/homepage/agilegan_cn.html
參考資料:
[1]
https://www.researchgate.net/publication/348487325_GAN_Inversion_A_Survey
[2]
https://mp.weixin.qq.com/s/ayt6g-5KoSV14s6a5mp9pg
— 完 —




