谷歌開(kāi)源預(yù)訓(xùn)練新范式BiT，準(zhǔn)確率提高近25%！網(wǎng)友評(píng)價(jià)：CV界BERT

魚(yú)羊 2020-05-22 15:57:32 來(lái)源：量子位

大規(guī)模預(yù)訓(xùn)練+簡(jiǎn)單遷移策略

魚(yú)羊發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

BERT在NLP界無(wú)往不利，大大提高了自然語(yǔ)言模型的性能，那么，在計(jì)算機(jī)視覺(jué)領(lǐng)域，有沒(méi)有可能一個(gè)CNN打天下？

現(xiàn)在，谷歌大腦給出了一個(gè)答案——開(kāi)源CV預(yù)訓(xùn)練新范式BiT。

BiT（Big Transfer），簡(jiǎn)而言之，是一個(gè)可以作為任意視覺(jué)任務(wù)起點(diǎn)的預(yù)訓(xùn)練ResNet。

在這項(xiàng)研究中，谷歌大腦證明：用大量通用數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的情況下，簡(jiǎn)單的遷移策略就能讓CV模型在下游任務(wù)上獲得良好的性能。

研究人員希望，BiT能取代現(xiàn)在常用的ImageNet預(yù)訓(xùn)練模型，推動(dòng)計(jì)算機(jī)視覺(jué)研究的發(fā)展。

甚至有網(wǎng)友這樣評(píng)價(jià)：BiT是CV界的BERT。

預(yù)訓(xùn)練的ResNet

所以BiT具體是怎么一回事呢？

首先，要說(shuō)到研究人員的3個(gè)新發(fā)現(xiàn)。

其一，是數(shù)據(jù)集大小和模型容量之間的關(guān)系。

研究人員利用經(jīng)典的ResNet架構(gòu)，在ILSVRC-2012（1.28M）、ImageNet-21K（14M）和JFT（300M）這三個(gè)數(shù)據(jù)集上，分別訓(xùn)練了從標(biāo)準(zhǔn)的50層R50x1，到4倍寬、152層深的R152x4等幾個(gè)變體。

觀察結(jié)果顯示，想要在更大的數(shù)據(jù)集上獲得更好的預(yù)訓(xùn)練效果，就需要增加模型容量。

另外，在較大的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，不一定會(huì)提高性能。但是，通過(guò)增加計(jì)算預(yù)算和訓(xùn)練時(shí)間，性能能得到明顯的改善。

第二個(gè)發(fā)現(xiàn)更加重要：訓(xùn)練時(shí)間的長(zhǎng)短至關(guān)重要。

如果在不調(diào)整計(jì)算預(yù)算的情況下，在一個(gè)較大的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，訓(xùn)練時(shí)間越長(zhǎng)，性能反而可能變差。

而針對(duì)新的數(shù)據(jù)集調(diào)整訓(xùn)練時(shí)間，改進(jìn)效果會(huì)非常顯著。

另外，研究人員還發(fā)現(xiàn)，用組歸一化（GN）取代批歸一化（BN），對(duì)大規(guī)模預(yù)訓(xùn)練而言是有益的。

首先，BN的狀態(tài)，包括神經(jīng)激活的均值和方差，需要在預(yù)訓(xùn)練和遷移之間進(jìn)行調(diào)整，而GN是無(wú)狀態(tài)的，從而繞開(kāi)了這個(gè)問(wèn)題。

其次，BN使用的是批處理級(jí)統(tǒng)計(jì)，當(dāng)大模型不可避免地出現(xiàn)小每設(shè)備（per-device）批處理量時(shí)，BN就會(huì)變得不可靠。GN同樣回避了這個(gè)問(wèn)題。

所以，研究人員們提出了這樣的預(yù)訓(xùn)練策略：采用標(biāo)準(zhǔn)ResNet，增加深度和寬度，用GNWS替換BN，并在大型通用數(shù)據(jù)集上進(jìn)行更多迭代。

遷移學(xué)習(xí)

接下來(lái)，就是針對(duì)下游任務(wù)微調(diào)預(yù)訓(xùn)練BiT模型。

研究人員介紹，BiT只需要預(yù)訓(xùn)練一次，此后在針對(duì)下游任務(wù)進(jìn)行微調(diào)時(shí)，成本很低。

微調(diào)涉及到很多超參數(shù)，比如學(xué)習(xí)率、權(quán)重衰減等。

對(duì)此，研究人員提出了BiT-HyperRule方法。該方法僅基于高級(jí)數(shù)據(jù)集特征，如圖像分辨率和標(biāo)注樣本數(shù)量等。也就是說(shuō)，BiT并不會(huì)對(duì)每個(gè)下游任務(wù)都進(jìn)行超參數(shù)調(diào)整。這能有效地降低任務(wù)適應(yīng)成本。

并且，對(duì)BiT模型進(jìn)行預(yù)訓(xùn)練后，即使下游任務(wù)只有少量標(biāo)注樣本，模型一樣表現(xiàn)良好。

研究人員還觀察到，在這種情況下，增加用于預(yù)訓(xùn)練的通用數(shù)據(jù)量和架構(gòu)容量，所產(chǎn)生的模型適應(yīng)新數(shù)據(jù)的能力也將大幅提高。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證BiT的表現(xiàn)是否具有普遍性，研究人員在VTAB-1k上進(jìn)行了實(shí)驗(yàn)。

VTAB-1k是由19個(gè)不同任務(wù)組成的任務(wù)套件，每個(gè)任務(wù)只有1000個(gè)標(biāo)注樣本。

BiT-L模型（在JFT-300M上進(jìn)行預(yù)訓(xùn)練）遷移到這些任務(wù)上后，獲得了76.3%的總得分，比此前的SOTA方法提高了5.8%。

另外，BiT-L在標(biāo)準(zhǔn)CV基準(zhǔn)Oxford Pets、Flowers、CIFAR上的結(jié)果也表明，這種大規(guī)模預(yù)訓(xùn)練 + 簡(jiǎn)單遷移的策略在數(shù)據(jù)量適中的情況下也是有效的。

為了進(jìn)一步評(píng)估BiT的魯棒性，研究人員還在基于真實(shí)照片的ObjectNet數(shù)據(jù)集上對(duì)模型進(jìn)行驗(yàn)證。

BiT-L模型的top-5精度刷新記錄，達(dá)到80%，比此前的SOTA方法提高將近25%。

關(guān)于作者

這篇論文有三位共同一作。

Alexander Kolesnikov，谷歌大腦研究軟件工程師，于2018年在奧地利科技學(xué)院獲機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué)博士學(xué)位。

Lucas Beyer ，谷歌大腦研究工程師，2018年博士畢業(yè)于德國(guó)亞琛工業(yè)大學(xué)。

翟曉華，谷歌大腦高級(jí)研究工程師，博士畢業(yè)于北京大學(xué)。研究方向是表征學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、GAN等。

傳送門(mén)

谷歌博客：

https://ai.googleblog.com/2020/05/open-sourcing-bit-exploring-large-scale.html

論文地址：

https://arxiv.org/abs/1912.11370

— 完 —

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

計(jì)算機(jī)視覺(jué) 谷歌預(yù)訓(xùn)練

魚(yú)羊

谷歌開(kāi)源預(yù)訓(xùn)練新范式BiT，準(zhǔn)確率提高近25%！網(wǎng)友評(píng)價(jià)：CV界BERT

預(yù)訓(xùn)練的ResNet

遷移學(xué)習(xí)

實(shí)驗(yàn)結(jié)果

關(guān)于作者

傳送門(mén)

相關(guān)閱讀

路人妹子秒變老婆，兇惡大狗秒變萌犬：日本開(kāi)源GAN插件，局部P圖無(wú)壓力

谷歌最強(qiáng)大模型免費(fèi)開(kāi)放了！長(zhǎng)音頻理解功能獨(dú)一份，100萬(wàn)上下文敞開(kāi)用

拒絕DNN過(guò)擬合，谷歌準(zhǔn)確預(yù)測(cè)訓(xùn)練集與測(cè)試集泛化差異，還開(kāi)源了數(shù)據(jù)集 | ICLR 2019

Hinton再挖新坑：改進(jìn)膠囊網(wǎng)絡(luò)，融合Transformer神經(jīng)場(chǎng)等研究

GPT-4推理能力暴漲32%，谷歌新型思維鏈效果超CoT，成本降至1/40

跟郎朗媳婦有得一拼的AI，只看彈琴動(dòng)作，完美復(fù)現(xiàn)原聲 | CVPR 2020

熱門(mén)文章

跨境電商的疑難雜癥，被1688這個(gè)AI全包了…

起底“豆包手機(jī)”：核心技術(shù)探索早已開(kāi)源，GUI Agent布局近兩年，“全球首款真正的AI手機(jī)”

蘋(píng)果芯片主管也要跑路！庫(kù)克被曝出現(xiàn)健康問(wèn)題

看完最新國(guó)產(chǎn)AI寫(xiě)的公眾號(hào)文章，我慌了！

共推空天領(lǐng)域智能化升級(jí)！趨境科技與金航數(shù)碼強(qiáng)強(qiáng)聯(lián)手

谷歌開(kāi)源預(yù)訓(xùn)練新范式BiT，準(zhǔn)確率提高近25%！網(wǎng)友評(píng)價(jià)：CV界BERT

預(yù)訓(xùn)練的ResNet

遷移學(xué)習(xí)

實(shí)驗(yàn)結(jié)果

關(guān)于作者

傳送門(mén)

相關(guān)閱讀

路人妹子秒變老婆，兇惡大狗秒變萌犬：日本開(kāi)源GAN插件，局部P圖無(wú)壓力

谷歌最強(qiáng)大模型免費(fèi)開(kāi)放了！長(zhǎng)音頻理解功能獨(dú)一份，100萬(wàn)上下文敞開(kāi)用

拒絕DNN過(guò)擬合，谷歌準(zhǔn)確預(yù)測(cè)訓(xùn)練集與測(cè)試集泛化差異，還開(kāi)源了數(shù)據(jù)集 | ICLR 2019

Hinton再挖新坑：改進(jìn)膠囊網(wǎng)絡(luò)，融合Transformer神經(jīng)場(chǎng)等研究

GPT-4推理能力暴漲32%，谷歌新型思維鏈效果超CoT，成本降至1/40

跟郎朗媳婦有得一拼的AI，只看彈琴動(dòng)作，完美復(fù)現(xiàn)原聲 | CVPR 2020

熱門(mén)文章

跨境電商的疑難雜癥，被1688這個(gè)AI全包了…

起底“豆包手機(jī)”：核心技術(shù)探索早已開(kāi)源，GUI Agent布局近兩年，“全球首款真正的AI手機(jī)”

蘋(píng)果芯片主管也要跑路！庫(kù)克被曝出現(xiàn)健康問(wèn)題

看完最新國(guó)產(chǎn)AI寫(xiě)的公眾號(hào)文章，我慌了！

共推空天領(lǐng)域智能化升級(jí)！趨境科技與金航數(shù)碼強(qiáng)強(qiáng)聯(lián)手

谷歌開(kāi)源預(yù)訓(xùn)練新范式BiT，準(zhǔn)確率提高近25%！網(wǎng)友評(píng)價(jià)：CV界BERT

路人妹子秒變老婆，兇惡大狗秒變萌犬：日本開(kāi)源GAN插件，局部P圖無(wú)壓力

拒絕DNN過(guò)擬合，谷歌準(zhǔn)確預(yù)測(cè)訓(xùn)練集與測(cè)試集泛化差異，還開(kāi)源了數(shù)據(jù)集 | ICLR 2019

Hinton再挖新坑：改進(jìn)膠囊網(wǎng)絡(luò)，融合Transformer神經(jīng)場(chǎng)等研究

跟郎朗媳婦有得一拼的AI，只看彈琴動(dòng)作，完美復(fù)現(xiàn)原聲 | CVPR 2020

跨境電商的疑難雜癥，被1688這個(gè)AI全包了…

起底“豆包手機(jī)”：核心技術(shù)探索早已開(kāi)源，GUI Agent布局近兩年，“全球首款真正的AI手機(jī)”

蘋(píng)果芯片主管也要跑路！庫(kù)克被曝出現(xiàn)健康問(wèn)題

看完最新國(guó)產(chǎn)AI寫(xiě)的公眾號(hào)文章，我慌了！