谷歌開源預訓練新范式BiT,準確率提高近25%!網友評價:CV界BERT
大規模預訓練+簡單遷移策略
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
BERT在NLP界無往不利,大大提高了自然語言模型的性能,那么,在計算機視覺領域,有沒有可能一個CNN打天下?
現在,谷歌大腦給出了一個答案——開源CV預訓練新范式BiT。
BiT(Big Transfer),簡而言之,是一個可以作為任意視覺任務起點的預訓練ResNet。
在這項研究中,谷歌大腦證明:用大量通用數據進行預訓練的情況下,簡單的遷移策略就能讓CV模型在下游任務上獲得良好的性能。
研究人員希望,BiT能取代現在常用的ImageNet預訓練模型,推動計算機視覺研究的發展。
甚至有網友這樣評價:BiT是CV界的BERT。
預訓練的ResNet
所以BiT具體是怎么一回事呢?
首先,要說到研究人員的3個新發現。
其一,是數據集大小和模型容量之間的關系。
研究人員利用經典的ResNet架構,在ILSVRC-2012(1.28M)、ImageNet-21K(14M)和JFT(300M)這三個數據集上,分別訓練了從標準的50層R50x1,到4倍寬、152層深的R152x4等幾個變體。
觀察結果顯示,想要在更大的數據集上獲得更好的預訓練效果,就需要增加模型容量。
另外,在較大的數據集上進行預訓練,不一定會提高性能。但是,通過增加計算預算和訓練時間,性能能得到明顯的改善。
第二個發現更加重要:訓練時間的長短至關重要。
如果在不調整計算預算的情況下,在一個較大的數據集上進行預訓練,訓練時間越長,性能反而可能變差。
而針對新的數據集調整訓練時間,改進效果會非常顯著。
另外,研究人員還發現,用組歸一化(GN)取代批歸一化(BN),對大規模預訓練而言是有益的。
首先,BN的狀態,包括神經激活的均值和方差,需要在預訓練和遷移之間進行調整,而GN是無狀態的,從而繞開了這個問題。
其次,BN使用的是批處理級統計,當大模型不可避免地出現小每設備(per-device)批處理量時,BN就會變得不可靠。GN同樣回避了這個問題。
所以,研究人員們提出了這樣的預訓練策略:采用標準ResNet,增加深度和寬度,用GNWS替換BN,并在大型通用數據集上進行更多迭代。
遷移學習
接下來,就是針對下游任務微調預訓練BiT模型。
研究人員介紹,BiT只需要預訓練一次,此后在針對下游任務進行微調時,成本很低。
微調涉及到很多超參數,比如學習率、權重衰減等。
對此,研究人員提出了BiT-HyperRule方法。該方法僅基于高級數據集特征,如圖像分辨率和標注樣本數量等。也就是說,BiT并不會對每個下游任務都進行超參數調整。這能有效地降低任務適應成本。
并且,對BiT模型進行預訓練后,即使下游任務只有少量標注樣本,模型一樣表現良好。
研究人員還觀察到,在這種情況下,增加用于預訓練的通用數據量和架構容量,所產生的模型適應新數據的能力也將大幅提高。
實驗結果
為了驗證BiT的表現是否具有普遍性,研究人員在VTAB-1k上進行了實驗。
VTAB-1k是由19個不同任務組成的任務套件,每個任務只有1000個標注樣本。
BiT-L模型(在JFT-300M上進行預訓練)遷移到這些任務上后,獲得了76.3%的總得分,比此前的SOTA方法提高了5.8%。
另外,BiT-L在標準CV基準Oxford Pets、Flowers、CIFAR上的結果也表明,這種大規模預訓練 + 簡單遷移的策略在數據量適中的情況下也是有效的。
為了進一步評估BiT的魯棒性,研究人員還在基于真實照片的ObjectNet數據集上對模型進行驗證。
BiT-L模型的top-5精度刷新記錄,達到80%,比此前的SOTA方法提高將近25%。
關于作者
這篇論文有三位共同一作。
Alexander Kolesnikov,谷歌大腦研究軟件工程師,于2018年在奧地利科技學院獲機器學習與計算機視覺博士學位。
Lucas Beyer ,谷歌大腦研究工程師,2018年博士畢業于德國亞琛工業大學。
翟曉華,谷歌大腦高級研究工程師,博士畢業于北京大學。研究方向是表征學習、自監督學習、GAN等。
傳送門
谷歌博客:
https://ai.googleblog.com/2020/05/open-sourcing-bit-exploring-large-scale.html
論文地址:
https://arxiv.org/abs/1912.11370
— 完 —
- 蘋果芯片主管也要跑路!庫克被曝出現健康問題2025-12-07
- 世界模型和具身大腦最新突破:90%生成數據,VLA性能暴漲300%|開源2025-12-02
- 谷歌新架構突破Transformer超長上下文瓶頸!Hinton靈魂拷問:后悔Open嗎?2025-12-05
- 90后華人副教授突破30年數學猜想!結論與生成式AI直接相關2025-11-26



