北大團(tuán)隊用Diffusion升級DragGAN，泛化更強(qiáng)生成質(zhì)量更高，點一點「大山拔地而起」

明敏 2023-08-02 16:37:05 來源：量子位

DragonDiffusion來了

明敏發(fā)自凹非寺

量子位 | 公眾號 QbitAI

北大團(tuán)隊最新工作，用擴(kuò)散模型也能實現(xiàn)拖拉拽P圖！

點一點，就能讓雪山長個兒：

北大團(tuán)隊用Diffusion升級DragGAN，泛化更強(qiáng)生成質(zhì)量更高，點一點「大山拔地而起」

或者讓太陽升起：

這就是DragonDiffusion，由北京大學(xué)張健老師團(tuán)隊VILLA（Visual-Information Intelligent Learning LAB），依托北京大學(xué)深圳研究生院-兔展智能AIGC聯(lián)合實驗室，聯(lián)合騰訊ARC Lab共同帶來。

它可以被理解為DragGAN的變種。

DragGAN如今GitHub Star量已經(jīng)超過3w，它的底層模型基于GAN（生成對抗網(wǎng)絡(luò)）。

一直以來，GAN在泛化能力和生成圖像質(zhì)量上都有短板。

而這剛好是擴(kuò)散模型（Diffusion Model）的長處。

所以張健老師團(tuán)隊就將DragGAN范式推廣到了Diffusion模型上。

該成果發(fā)布時登上知乎熱榜。

有人評價說，這解決了Stable Diffusion生成圖片中部分殘缺的問題，可以很好進(jìn)行控制重繪。

讓獅子在照片中轉(zhuǎn)頭

Dragon Diffusion能帶來的效果還包括改變車頭形狀：

讓沙發(fā)逐漸變長：

再或者是手動瘦臉：

也能替換照片中的物體，比如把甜甜圈放到另一張圖片里：

或者是給獅子轉(zhuǎn)轉(zhuǎn)頭：

該方法框架中包括兩個分支，引導(dǎo)分支（guidance branch）和生成分支（generation branch）。

首先，待編輯圖像北大團(tuán)隊用Diffusion升級DragGAN，泛化更強(qiáng)生成質(zhì)量更高，點一點「大山拔地而起」通過Diffusion的逆過程，找到該圖像在擴(kuò)散隱空間中的表示，作為兩個分支的輸入。

其中，引導(dǎo)分支會對原圖像進(jìn)行重建，重建過程中將原圖像中的信息注入下方的生成分支。

生成分支的作用是引導(dǎo)信息對原圖像進(jìn)行編輯，同時保持主要內(nèi)容與原圖一致。

根據(jù)擴(kuò)散模型中間特征具有強(qiáng)對應(yīng)關(guān)系，DragonDiffusion在每一個擴(kuò)散迭補(bǔ)中，將兩個分支的隱變量北大團(tuán)隊用Diffusion升級DragGAN，泛化更強(qiáng)生成質(zhì)量更高，點一點「大山拔地而起」通過相同的UNet去噪器轉(zhuǎn)換到特征域。

然后利用兩個mask，北大團(tuán)隊用Diffusion升級DragGAN，泛化更強(qiáng)生成質(zhì)量更高，點一點「大山拔地而起」和區(qū)域。標(biāo)定拖動內(nèi)容在原圖像和編輯后圖像中的位置，然后約束的內(nèi)容出現(xiàn)在區(qū)域。

論文通過cosin距離來度量兩個區(qū)域的相似度，并對相似度進(jìn)行歸一化：

除了約束編輯后的內(nèi)容變化，還應(yīng)該保持其他未編輯區(qū)域與原圖的一致性。這里也同樣通過對應(yīng)區(qū)域的相似度進(jìn)行約束。最終，總損失函數(shù)設(shè)計為：

在編輯信息的注入方面，論文通過score-based Diffusion將有條件的擴(kuò)散過程視為一個聯(lián)合的score function：

將編輯信號通過基于特征強(qiáng)對應(yīng)關(guān)系的score function轉(zhuǎn)化為梯度，對擴(kuò)散過程中的隱變量北大團(tuán)隊用Diffusion升級DragGAN，泛化更強(qiáng)生成質(zhì)量更高，點一點「大山拔地而起」進(jìn)行更新。