何愷明最新一作論文:無監督勝有監督,遷移學習無壓力,刷新7項檢測分割任務
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
何愷明的一作論文,又刷新了7項分割檢測任務。
這一次,涉及的是無監督表征學習。這一方法廣泛應用在NLP領域,但尚未在計算機視覺中引起注意。
Facebook AI研究院的何愷明團隊受此啟發,采用對比損失(constrative loss)法,即從圖像數據中采樣鍵(或令牌),并由經過訓練、與字典相匹配的編碼器表征。
新的方法,名叫MoCo(Momentum Contrast)。其預訓練模型經過微調可以遷移到不同的任務上。
在ImageNet、CoCo等數據集上,MoCo甚至在某些情況下大大超越了監督預訓練模型。
研究團隊表示:
這表明,在許多視覺任務中,無監督和有監督的表征學習之間的鴻溝已經大大消除。
方法原理
那么,MoCo究竟是怎么實現的呢?
像查字典一樣的對比學習
對比學習(constrastive learning),可以看做是在訓練編碼器來完成字典查找任務。
假設字典中有一個與編碼查詢(query)相匹配的鍵(key,表示為k+)。對比損失函數中,當查詢與k+相似,且與所有其他鍵不同時,函數值較低。
在這篇論文中,研究人員采用的對比損失函數如下:
這是一種無監督目標函數,用來訓練表征查詢和鍵的編碼器網絡。
動量對比(MoCo)
用一句話來說,對比學習就是一種在高連續性輸入(如圖像)上構建離散字典的方法。
MoCo方法的核心,是將上述字典作為數據樣本隊列來進行維護,這樣一來,字典就能重復使用已編碼的鍵,字典就可以比通常更大,并且可以靈活地、獨立地設置為超參數。
這是一本動態字典,其樣本會逐漸被替換,但始終代表著所有數據的抽樣子集。
其次,需要考慮的是更新編碼器的問題。
使用隊列可以讓字典變大,但也會讓通過反向傳播來更新鍵編碼器這件事變得更困難。
研究人員假設這種困難是編碼器的快速變化降低了鍵的表征一致性所造成的,于是,他們提出了動量更新的方法。
在這個公式中,只有θq是通過反向傳播更新的。動量更新會使得θk的演化比θq更加平穩。
在實驗中,研究人員還發現,相對較大的動量(m=0.999)會比較小的動量(m=0.9)要好得多。這表明緩慢演變的鍵編碼器是利用隊列的關鍵所在。
△三種不同對比損失機制,僅展示一對查詢和鍵的關系
從這張圖中,可以看到三種不同對比損失機制的不同。
端到端方法,是通過反向傳播對計算查詢和鍵的表征進行端到端更新。
Memory bank方法中,鍵的表征是從存儲庫中提取的。
而MoCo方法則通過基于動量更新的編碼器對鍵進行動態編碼,并維持鍵的隊列。
實驗結果
MoCo的表現究竟如何,還是要用數據說話。
研究團隊在ImageNet-1M和Instagram-1B這兩個數據集上進行了測試。
ImageNet-1M是ImageNet的訓練集,包含1000種不同類別的128萬張圖片。而Instagram-1B數據集則包含10億(940M)Instagram上的公開圖像。
在三種不同機制的對比中,字典規模越大,三種方法的表現就越好。
當K較小時,端到端方法的表現與MoCo差不多,但其批處理大小受限,在8個32GB的V100上,最大的mini-batch僅為1024。并且,即使存儲空間足夠大,由于端到端方法必須滿足線性學習率縮放規則,否則精度會下降,其增長趨勢能否推及到更大規模是存疑的。
而memory bank的準確率則始終比MoCo低了2%以上。
在ImageNet上,MoCo表現出色。
并且在針對不同的任務進行微調之后,MoCo可以很好地遷移到下游任務中,表現甚至優于有監督預訓練模型。
而PASCAL VOC,COCO等其他數據集上的7種檢測/細分任務中,MoCo的表現也優于其他有監督預訓練模型。甚至有十分明顯的提升。
另外,在Instagram語料庫上進行預訓練的MoCo性能始終優于在ImageNet上訓練的結果,這表明MoCo非常適合大型的、相對未整理的數據。
Facebook AI研究院的華人們
論文的研究團隊,來自Facebook AI研究院(FAIR)。
一作何愷明,想必大家都不陌生。作為Mask R-CNN的主要提出者,他曾三次斬獲頂會最佳論文。
何愷明大神加持,論文的其他幾位作者實力也不容小覷。
Haoqi Fan,畢業于卡內基梅隆大學機器人學院,是FAIR的研究工程師。研究領域是計算機視覺和深度學習。有多篇論文入選ICCV、CVPR、AAAI等國際頂會。
吳育昕,FAIR研究工程師,本科畢業于清華大學,2017年于卡內基梅隆大學獲得計算機視覺碩士學位。本科期間就曾在谷歌、曠視實習。
謝賽寧,本科畢業于上海交通大學,18年獲加州大學圣迭戈分校CS博士學位。現在是FAIR的研究科學家。
另外一位論文作者Ross Girshick,同樣是FAIR的研究科學家。博士畢業于芝加哥大學,曾在UC伯克利擔任博士后研究員。
傳送門
論文地址:
https://arxiv.org/abs/1911.05722
— 完 —
- 蘋果芯片主管也要跑路!庫克被曝出現健康問題2025-12-07
- 世界模型和具身大腦最新突破:90%生成數據,VLA性能暴漲300%|開源2025-12-02
- 谷歌新架構突破Transformer超長上下文瓶頸!Hinton靈魂拷問:后悔Open嗎?2025-12-05
- 90后華人副教授突破30年數學猜想!結論與生成式AI直接相關2025-11-26




