GAN不只會造假:捕獲數據中額外顯著特征,提高表征學習可解釋性,效果超越InfoGAN | IJCAI 2020
AI獨角獸明略科技聯合兩所高校新研究
楊凈 魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
提起GAN,你或許會想起真假難辨的人臉生成。
但其實,GAN的能力并不只局限在圖像生成上。
用GAN做無監督表征學習,就可以去做圖像分類了,就像那個半路出家的BigBiGAN,秒殺了一眾專注分類20年的AI選手。
現在,最新研究表明,在無監督環境中,GAN在學習可解釋性表征方面也大有可為。
在實際情況中,有一些表征可能是各種因素相互作用的結果,忽略這些相互作用可能會導致無法發現更多的特征。
針對這一問題,AI獨角獸明略科技聯合兩所高校,提出了一個新的正則化器,對潛伏空間變量的相互作用施加結構約束,有效地探索數據中額外的顯著特征。
目前已入選IJCAI 2020會議論文。
用GAN提取信息糾纏的顯著特征
現有的無監督學習可解釋表征的方法著重于「從數據中提取獨立不糾纏的顯著特征」,但是這一方法忽略了顯著特征的糾纏可能會提供有用信息。
而認識到這些信息糾纏,可以提高表征的可解釋性,從而提取出更高質量和廣泛的顯著特征。
也就是說,要實現更好的可解釋性,需要同時考慮非糾纏和信息糾纏的顯著特征。
基于此,本文的核心方法是:用生成對抗網絡GAN,來學習非糾纏和信息糾纏的可解釋性表征。
具體來說,就是提出了一個正則化器,對潛在變量的信息糾纏進行結構性約束,使用貝葉斯網絡對這些交互進行建模,做最大似然估計,并計算負似然分數以衡量分歧。
基于InfoGAN
先來了解一下這篇文章的背景。
這篇文章是以InfoGAN為基礎。它是當前最先進的用于「離散表征學習」的生成對抗網絡,通過將GAN的對抗損失函數與一組觀測值和生成器輸出之間的相互信息進行正則化來進行離散表征。
它于2016年首次提出,由加州大學伯克利分校、OpenAI聯合開發,能夠完全以無監督學習的方式來學習離散表征。
InfoGAN學習的可解釋性表征與現有的監督方法學習的表征相比具有競爭力。互信息最大化鼓勵網絡將解耦變量與生成的輸出聯系起來,迫使生成器給這些變量賦予意義。
由于互信息分量難以計算,InfoGAN通過最大化變量下限來近似計算。
但其正則化器并不能保證發現的顯著特征之間的獨立性。實際情況中,這些特征可能會相互影響,存在糾纏的情況。
于是,IJCAI的這篇論文用GAN學習可解釋性表征問題,并同時考慮了離散變量和信息糾纏變量。
文章提出利用依賴結構,建模觀測值和數據顯著特征之間的關系,并將這種結構作為GAN訓練的約束條件。
建模變量關系
為了在觀測變量和顯著特征之間施加結構化關系,本文利用了判別器的特征提取能力。
在GAN訓練中,判別器學習從訓練數據中提取顯著特征,生成器根據判別器的輸出進行更新。
以上圖為例,綠色節點為輸入的觀測數據,紅色節點為判別器提取出來的潛碼(latent code),這些節點組成的圖就是依賴結構。
如果在觀測變量與顯著特征之間施加一個結構化關系,那么觀測變量將與訓練數據的顯著特征聯系在一起。
正如圖中提取出的三個特征,其中兩個引出第三個。而連接紅綠兩點的線代表了觀測變量與潛碼之間的因果關系,讓觀察變量控制生成器輸出的顯著特征。
然后,將一組觀測變量與判別器潛碼的「聯合分布」表示為貝葉斯網絡的形式。
但需要注意的是,通過估計每個局部條件概率的參數,而不是直接估計聯合分布參數,由此獲得對各個因果關系重要性的控制。
之所以選擇貝葉斯網絡,主要有如下原因,
1、與大多數獨立性檢驗相比,貝葉斯網絡結構能夠表示更精細的變量關系。
2、建立變量聯合分布模型所需的數據量比非結構化的方法要少。
3、捕捉顯著特征之間的「因果關系」可以提高可解釋性,也就是說,一些變量如何糾纏可能會提供關于數據的額外信息,以及獨立因子所代表的內容。
將帶有結構損失的GAN正則化
之后,研究團隊設計來一個正則化器,利用如下等式中定義的似然函數所取的值,來指導GAN的訓練。
由于似然函數衡量的是給定模型的數據概率,所以當最大似然估計插入時,這個函數所取的值提供了一個天然的度量標準來衡量G對數據的擬合程度。
其中,G為給定的「聯合分布」和局部條件參數的最大似然估計。
與最大似然估計過程不同的是,本文是操縱分布本身來尋找一個給定的G所代表的最佳數據生成器。
損失函數為:
最終,利用所提出的損失函數,將GAN訓練的正則化為:
通過提出的結構損失正則化,GAN學習表示訓練數據分布,同時觀測變量和潛碼關系遵循指定的圖形結構,這樣就可以控制提取變量的相互作用。
換句話說,為了提取相互之間完全獨立的潛在變量,可以定義一個觀測變量和潛碼之間具有一對一連接的圖結構。
另一方面,為了提取相互引起的變量,還可以在潛在變量之間增加連接。
實驗結果:超越SOTA
所以,GAN學習可解釋表征的效果如何?
研究人員在合成數據集和真實世界數據集上進行了實驗驗證。
實驗中,正則化是在和InfoGAN相同的判別器和生成器架構上實現的,同時采用網格搜索來調整參數。
MNIST數據集
在MNIST數據集中,實驗所采用的圖結構如下。
結果顯示,盡管InfoGAN很好地捕捉到了旋轉特征,但如下圖中(b)和(d)所示,粗細特征并沒有被充分區分開。
基本上,對于所有InfoGAN生成的數字,粗細度增加,數字也會旋轉。同時,一些數字的特征會出現丟失,比如「5」。
本文提出的新方法則成功捕捉了這兩個不同的視覺特征,并且不影響數字的數字特征。
另外,研究人員也測試了兩種方法的泛化能力。
模型仍然在 ci∈[-1,1] 的條件下訓練,但在 ci∈{-2,0,2} 的條件下生成圖像。
結果表明,新方法比InfoGAN的泛化能力更強,在輸出圖像變粗的同時,攜帶了更豐富的數字特征。
另外,研究人員發現,在使用該正則器學習的表征中,粗細度增加的同時,數字寬度也會增加。這暗示了寬度和粗細特征之間存在信息糾纏。
進一步的實驗表明,基于本文提出的正則化器,可以引導GAN的訓練,以探索更多的顯著特征。
利用信息糾纏,有可能拆分出其他顯著特征相互作用的產物,也有可能發現糾纏在一起但顯著的新特征。
研究人員如下圖所示調整了圖結構。這使得GAN趨向于發現2個會影響第3個特征的潛伏特征。
研究人員觀察到,c1和c2分別捕獲了寬度和粗細度的特征,而c3則捕獲了寬度和粗細度的混合特征。
這一結果說明,反饋給學習網絡G的圖結構,能夠引導GAN發現遵循期望的因果關系的變量。
3D Faces Dataset
研究人員還在3D Faces數據集上進行了實驗。該數據集包含24萬個人臉模型,這些人臉模型的旋轉度、光線、形狀和高度會隨機變化。
結果同樣表明,InfoGAN并沒能提取第4個混合特征。而本文提出的正則器能夠引導GAN捕獲旋轉、仰角、光線、寬度這全部4個特征。
dSprites Dataset
之后,研究人員在dSprites數據集上對新方法進行了實驗。
這個數據集通常被用來給不同的表征學習模型所實現的解構進行評分和比較。
結果顯示,該方法在得分上超過了SOTA方法。
最后總結一下:通過定性和定量比較,研究人員證明了本文提出的正則化器可以從數據中發現比SOTA更廣泛的顯著特征,并且實現了比SOTA更強的泛化性能。
研究人員表示,下一步,他們將完成兩個目標:
· 設計一種學習最佳圖結構的算法來探索顯著特征
· 進行非圖像數據集的實驗
作者介紹
這篇論文的作者,分別來自路易斯安那大學拉斐特分校、約翰內斯·開普勒大學林茨分校,以及國內AI獨角獸明略科技。
第一作者是來自路易斯安那大學拉斐特分校的Ege Beyazit博士研究生。
他的研究方向是機器學習和數據挖掘。
此外,明略科技集團首席科學家、明略科學院院長,IEEE&AAAS fellow吳信東也參與了這項研究。
傳送門
論文地址:https://www.ijcai.org/Proceedings/2020/273
- 空間智能卡脖子難題被杭州攻克!難倒GPT-5后,六小龍企業出手了2025-08-28
- 陳丹琦有了個公司郵箱,北大翁荔同款2025-08-28
- 英偉達最新芯片B30A曝光2025-08-20
- AI應用如何落地政企?首先不要卷通用大模型2025-08-12




