谷歌開(kāi)源預(yù)訓(xùn)練新范式BiT,準(zhǔn)確率提高近25%!網(wǎng)友評(píng)價(jià):CV界BERT
大規(guī)模預(yù)訓(xùn)練+簡(jiǎn)單遷移策略
魚(yú)羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
BERT在NLP界無(wú)往不利,大大提高了自然語(yǔ)言模型的性能,那么,在計(jì)算機(jī)視覺(jué)領(lǐng)域,有沒(méi)有可能一個(gè)CNN打天下?
現(xiàn)在,谷歌大腦給出了一個(gè)答案——開(kāi)源CV預(yù)訓(xùn)練新范式BiT。
BiT(Big Transfer),簡(jiǎn)而言之,是一個(gè)可以作為任意視覺(jué)任務(wù)起點(diǎn)的預(yù)訓(xùn)練ResNet。
在這項(xiàng)研究中,谷歌大腦證明:用大量通用數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的情況下,簡(jiǎn)單的遷移策略就能讓CV模型在下游任務(wù)上獲得良好的性能。
研究人員希望,BiT能取代現(xiàn)在常用的ImageNet預(yù)訓(xùn)練模型,推動(dòng)計(jì)算機(jī)視覺(jué)研究的發(fā)展。
甚至有網(wǎng)友這樣評(píng)價(jià):BiT是CV界的BERT。
預(yù)訓(xùn)練的ResNet
所以BiT具體是怎么一回事呢?
首先,要說(shuō)到研究人員的3個(gè)新發(fā)現(xiàn)。
其一,是數(shù)據(jù)集大小和模型容量之間的關(guān)系。
研究人員利用經(jīng)典的ResNet架構(gòu),在ILSVRC-2012(1.28M)、ImageNet-21K(14M)和JFT(300M)這三個(gè)數(shù)據(jù)集上,分別訓(xùn)練了從標(biāo)準(zhǔn)的50層R50x1,到4倍寬、152層深的R152x4等幾個(gè)變體。
觀察結(jié)果顯示,想要在更大的數(shù)據(jù)集上獲得更好的預(yù)訓(xùn)練效果,就需要增加模型容量。
另外,在較大的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,不一定會(huì)提高性能。但是,通過(guò)增加計(jì)算預(yù)算和訓(xùn)練時(shí)間,性能能得到明顯的改善。
第二個(gè)發(fā)現(xiàn)更加重要:訓(xùn)練時(shí)間的長(zhǎng)短至關(guān)重要。
如果在不調(diào)整計(jì)算預(yù)算的情況下,在一個(gè)較大的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,訓(xùn)練時(shí)間越長(zhǎng),性能反而可能變差。
而針對(duì)新的數(shù)據(jù)集調(diào)整訓(xùn)練時(shí)間,改進(jìn)效果會(huì)非常顯著。
另外,研究人員還發(fā)現(xiàn),用組歸一化(GN)取代批歸一化(BN),對(duì)大規(guī)模預(yù)訓(xùn)練而言是有益的。
首先,BN的狀態(tài),包括神經(jīng)激活的均值和方差,需要在預(yù)訓(xùn)練和遷移之間進(jìn)行調(diào)整,而GN是無(wú)狀態(tài)的,從而繞開(kāi)了這個(gè)問(wèn)題。
其次,BN使用的是批處理級(jí)統(tǒng)計(jì),當(dāng)大模型不可避免地出現(xiàn)小每設(shè)備(per-device)批處理量時(shí),BN就會(huì)變得不可靠。GN同樣回避了這個(gè)問(wèn)題。
所以,研究人員們提出了這樣的預(yù)訓(xùn)練策略:采用標(biāo)準(zhǔn)ResNet,增加深度和寬度,用GNWS替換BN,并在大型通用數(shù)據(jù)集上進(jìn)行更多迭代。
遷移學(xué)習(xí)
接下來(lái),就是針對(duì)下游任務(wù)微調(diào)預(yù)訓(xùn)練BiT模型。
研究人員介紹,BiT只需要預(yù)訓(xùn)練一次,此后在針對(duì)下游任務(wù)進(jìn)行微調(diào)時(shí),成本很低。
微調(diào)涉及到很多超參數(shù),比如學(xué)習(xí)率、權(quán)重衰減等。
對(duì)此,研究人員提出了BiT-HyperRule方法。該方法僅基于高級(jí)數(shù)據(jù)集特征,如圖像分辨率和標(biāo)注樣本數(shù)量等。也就是說(shuō),BiT并不會(huì)對(duì)每個(gè)下游任務(wù)都進(jìn)行超參數(shù)調(diào)整。這能有效地降低任務(wù)適應(yīng)成本。
并且,對(duì)BiT模型進(jìn)行預(yù)訓(xùn)練后,即使下游任務(wù)只有少量標(biāo)注樣本,模型一樣表現(xiàn)良好。
研究人員還觀察到,在這種情況下,增加用于預(yù)訓(xùn)練的通用數(shù)據(jù)量和架構(gòu)容量,所產(chǎn)生的模型適應(yīng)新數(shù)據(jù)的能力也將大幅提高。
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證BiT的表現(xiàn)是否具有普遍性,研究人員在VTAB-1k上進(jìn)行了實(shí)驗(yàn)。
VTAB-1k是由19個(gè)不同任務(wù)組成的任務(wù)套件,每個(gè)任務(wù)只有1000個(gè)標(biāo)注樣本。
BiT-L模型(在JFT-300M上進(jìn)行預(yù)訓(xùn)練)遷移到這些任務(wù)上后,獲得了76.3%的總得分,比此前的SOTA方法提高了5.8%。
另外,BiT-L在標(biāo)準(zhǔn)CV基準(zhǔn)Oxford Pets、Flowers、CIFAR上的結(jié)果也表明,這種大規(guī)模預(yù)訓(xùn)練 + 簡(jiǎn)單遷移的策略在數(shù)據(jù)量適中的情況下也是有效的。
為了進(jìn)一步評(píng)估BiT的魯棒性,研究人員還在基于真實(shí)照片的ObjectNet數(shù)據(jù)集上對(duì)模型進(jìn)行驗(yàn)證。
BiT-L模型的top-5精度刷新記錄,達(dá)到80%,比此前的SOTA方法提高將近25%。
關(guān)于作者
這篇論文有三位共同一作。
Alexander Kolesnikov,谷歌大腦研究軟件工程師,于2018年在奧地利科技學(xué)院獲機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué)博士學(xué)位。
Lucas Beyer ,谷歌大腦研究工程師,2018年博士畢業(yè)于德國(guó)亞琛工業(yè)大學(xué)。
翟曉華,谷歌大腦高級(jí)研究工程師,博士畢業(yè)于北京大學(xué)。研究方向是表征學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、GAN等。
傳送門(mén)
谷歌博客:
https://ai.googleblog.com/2020/05/open-sourcing-bit-exploring-large-scale.html
論文地址:
https://arxiv.org/abs/1912.11370
— 完 —



