訓(xùn)練CV模型新思路來了:用NLP大火的Prompt替代微調(diào),性能全面提升
24個圖像識別任務(wù)勝出20個
Prompt tuning,作為NLP領(lǐng)域中的一個“新寵”,甚至曾被學(xué)者譽為NLP預(yù)訓(xùn)練新范式。
那么,它能否借鑒到CV領(lǐng)域并產(chǎn)生同樣的成績呢?
現(xiàn)在,來自康奈爾大學(xué)和Meta AI等機(jī)構(gòu),通過Prompt來調(diào)整基于Transformer的視覺模型,結(jié)果發(fā)現(xiàn):
完全可以!
比起全面微調(diào),Prompt性能提升顯著。無論模型的規(guī)模和訓(xùn)練數(shù)據(jù)怎么變,24種情況中有20種都完全勝出。
與此同時,它還能大幅降低每項任務(wù)所需的存儲成本。
只使用不到1%的模型參數(shù)
大家一貫使用的全面微調(diào)(full fine-tuning),需要為每個下游任務(wù)存儲和部署單獨的主干參數(shù)副本,成本太高,尤其是現(xiàn)在基于Transformer的模型越來越大,已經(jīng)超過CNN架構(gòu)。
所謂Prompt,最初指的是在輸入文本中預(yù)編語言指令,以便預(yù)培訓(xùn)的語言模型后續(xù)可以直接理解各種下游任務(wù)。
它曾讓GPT-3即使在少樣本或零樣本的情況下表現(xiàn)出很強的泛化能力。
最近一些成果則表明,Prompt與完全微調(diào)的性能相當(dāng),參數(shù)存儲量還減少了1000倍。
NLP中的高超性能讓不少人開始在CV領(lǐng)域中探索Prompt的魔力,不過都只局限于跨模態(tài)任務(wù)中文本編碼器的輸入。
在本文中,作者將他們所提出的Visual Prompt Tuning方法,簡稱為VPT。這是首次有人將Prompt應(yīng)用到視覺模型主干(backbone),并做出成果。
具體來說,比起全面微調(diào),VPT受最新大型NLP模型調(diào)整方法的啟發(fā),只在輸入空間中引入少量可特定某任務(wù)訓(xùn)練的參數(shù)(不到模型參數(shù)的1%),同時在訓(xùn)練下游任務(wù)期間凍結(jié)(freeze)預(yù)訓(xùn)練模型的主干。
在實操中,這些附加參數(shù)只用預(yù)先加入到每個Transformer層的輸入序列中,并在微調(diào)期間與線性head一起學(xué)習(xí)。
他們一共探索出兩種變體:
VPT-Deep變體為Transformer編碼器每層的輸入預(yù)先設(shè)置一組可學(xué)習(xí)的參數(shù);
VPT-Shallow變體則僅將提示參數(shù)插入第一層的輸入。
兩者在下游任務(wù)的訓(xùn)練過程中,只有特定于任務(wù)的提示和線性頭的參數(shù)會更新,而整個Transformer編碼器被凍結(jié)。
接下來,是騾子是馬?拉出來溜溜~
20/24的優(yōu)勝率
實驗涉及兩種在ImageNet-21k上預(yù)訓(xùn)練好的主干,一個來自Vision Transformer,一個來自Swin Transformer。
進(jìn)行對比的微調(diào)方法有三大種,7小種,包括:
(1)完全微調(diào):更新所有主干和分類頭(classification head)參數(shù)
(2)以分類頭為重點的微調(diào),包括Linear、Partial-k和Mlp-k三種;
(3)以及在微調(diào)過程中更新一個主干子集參數(shù)或向主干添加新的可訓(xùn)練參數(shù)的方法,分為Sidetune、Bias和Adapter三種。
實驗的數(shù)據(jù)集有兩組,一共涉及24個跨不同領(lǐng)域的下游識別任務(wù),包括:
(1)由5個基準(zhǔn)細(xì)粒度視覺分類任務(wù)組成的FGVC;
(2)由19個不同視覺分類集合組成的VTAB-1k,細(xì)分為使用標(biāo)準(zhǔn)相機(jī)拍攝的自然圖像任務(wù)(Natural)、用專用設(shè)備(如衛(wèi)星圖像)捕獲的圖像任務(wù)(Specialized)以及需要幾何理解的任務(wù)(Structured),比如物體計數(shù)。
測得每項任務(wù)上的平均準(zhǔn)確度后,得出的主要結(jié)果如下:
VPT-Deep在24個任務(wù)中有20個的表現(xiàn)都優(yōu)于全面微調(diào),同時使用的總模型參數(shù)顯著減少(1.18× vs. 24.02×);
要知道,在NLP領(lǐng)域中Prompt再厲害,性能也不會超過全面微調(diào)。這說明Prompt很適用于視覺Transformer模型。
和其他微調(diào)方法相比(b、c組),VPT-Deep的性能則全部勝出。
此外,選擇不同主干參數(shù)規(guī)模和模型規(guī)模的ViT(ViT-B、ViT-L和ViT-H)進(jìn)行測試還發(fā)現(xiàn),VPT方法不會受影響,依然基本保持性能領(lǐng)先。
而在Swin Transformer中,全面微調(diào)法的平均準(zhǔn)確度雖然更高,但也付出了巨大的參數(shù)代價。
其他微調(diào)方法則全部不敵VPT。
作者介紹
一作賈夢霖,康奈爾大學(xué)信息科學(xué)(Information Science)博士生,主要研究方向為視覺和文本信息的細(xì)粒度識別,截至目前共發(fā)表過4篇頂會。
共同一作為唐路明,也是康奈爾大學(xué)的一位計算機(jī)博士在讀學(xué)生,本科畢業(yè)于清華大學(xué)數(shù)學(xué)與物理專業(yè)。
他的主要研究方向為機(jī)器學(xué)習(xí)和計算機(jī)視覺的交叉領(lǐng)域。
論文地址:
https://arxiv.org/abs/2203.12119
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發(fā)場景,專為企業(yè)私有部署設(shè)計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數(shù)學(xué)和計算機(jī)最高獎“雙料王”出現(xiàn)了2024-04-10
- 8.3K Stars!《多模態(tài)大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10




