訓(xùn)練CV模型新思路來了：用NLP大火的Prompt替代微調(diào)，性能全面提升

豐色 2022-03-25 16:23:47 來源：量子位

24個圖像識別任務(wù)勝出20個

Prompt tuning，作為NLP領(lǐng)域中的一個“新寵”，甚至曾被學(xué)者譽為NLP預(yù)訓(xùn)練新范式。

那么，它能否借鑒到CV領(lǐng)域并產(chǎn)生同樣的成績呢？

現(xiàn)在，來自康奈爾大學(xué)和Meta AI等機(jī)構(gòu)，通過Prompt來調(diào)整基于Transformer的視覺模型，結(jié)果發(fā)現(xiàn)：

完全可以！

比起全面微調(diào)，Prompt性能提升顯著。無論模型的規(guī)模和訓(xùn)練數(shù)據(jù)怎么變，24種情況中有20種都完全勝出。

視覺Prompt來了！凍結(jié)主干調(diào)節(jié)1%參數(shù)，效果超越傳統(tǒng)微調(diào)

與此同時，它還能大幅降低每項任務(wù)所需的存儲成本。

只使用不到1%的模型參數(shù)

大家一貫使用的全面微調(diào)（full fine-tuning），需要為每個下游任務(wù)存儲和部署單獨的主干參數(shù)副本，成本太高，尤其是現(xiàn)在基于Transformer的模型越來越大，已經(jīng)超過CNN架構(gòu)。

所謂Prompt，最初指的是在輸入文本中預(yù)編語言指令，以便預(yù)培訓(xùn)的語言模型后續(xù)可以直接理解各種下游任務(wù)。

它曾讓GPT-3即使在少樣本或零樣本的情況下表現(xiàn)出很強的泛化能力。

最近一些成果則表明，Prompt與完全微調(diào)的性能相當(dāng)，參數(shù)存儲量還減少了1000倍。

NLP中的高超性能讓不少人開始在CV領(lǐng)域中探索Prompt的魔力，不過都只局限于跨模態(tài)任務(wù)中文本編碼器的輸入。

在本文中，作者將他們所提出的Visual Prompt Tuning方法，簡稱為VPT。這是首次有人將Prompt應(yīng)用到視覺模型主干（backbone），并做出成果。

具體來說，比起全面微調(diào)，VPT受最新大型NLP模型調(diào)整方法的啟發(fā)，只在輸入空間中引入少量可特定某任務(wù)訓(xùn)練的參數(shù)（不到模型參數(shù)的1%），同時在訓(xùn)練下游任務(wù)期間凍結(jié)（freeze）預(yù)訓(xùn)練模型的主干。

在實操中，這些附加參數(shù)只用預(yù)先加入到每個Transformer層的輸入序列中，并在微調(diào)期間與線性head一起學(xué)習(xí)。

他們一共探索出兩種變體：

VPT-Deep變體為Transformer編碼器每層的輸入預(yù)先設(shè)置一組可學(xué)習(xí)的參數(shù)；

VPT-Shallow變體則僅將提示參數(shù)插入第一層的輸入。

兩者在下游任務(wù)的訓(xùn)練過程中，只有特定于任務(wù)的提示和線性頭的參數(shù)會更新，而整個Transformer編碼器被凍結(jié)。

接下來，是騾子是馬？拉出來溜溜～

20/24的優(yōu)勝率

實驗涉及兩種在ImageNet-21k上預(yù)訓(xùn)練好的主干，一個來自Vision Transformer，一個來自Swin Transformer。

進(jìn)行對比的微調(diào)方法有三大種，7小種，包括：

（1）完全微調(diào)：更新所有主干和分類頭（classification head）參數(shù)

（2）以分類頭為重點的微調(diào)，包括Linear、Partial-k和Mlp-k三種；

（3）以及在微調(diào)過程中更新一個主干子集參數(shù)或向主干添加新的可訓(xùn)練參數(shù)的方法，分為Sidetune、Bias和Adapter三種。

實驗的數(shù)據(jù)集有兩組，一共涉及24個跨不同領(lǐng)域的下游識別任務(wù)，包括：

（1）由5個基準(zhǔn)細(xì)粒度視覺分類任務(wù)組成的FGVC；

（2）由19個不同視覺分類集合組成的VTAB-1k，細(xì)分為使用標(biāo)準(zhǔn)相機(jī)拍攝的自然圖像任務(wù)（Natural）、用專用設(shè)備（如衛(wèi)星圖像）捕獲的圖像任務(wù)（Specialized）以及需要幾何理解的任務(wù)（Structured），比如物體計數(shù)。

測得每項任務(wù)上的平均準(zhǔn)確度后，得出的主要結(jié)果如下：

VPT-Deep在24個任務(wù)中有20個的表現(xiàn)都優(yōu)于全面微調(diào)，同時使用的總模型參數(shù)顯著減少（1.18× vs. 24.02×）；

要知道，在NLP領(lǐng)域中Prompt再厲害，性能也不會超過全面微調(diào)。這說明Prompt很適用于視覺Transformer模型。

和其他微調(diào)方法相比（b、c組），VPT-Deep的性能則全部勝出。

此外，選擇不同主干參數(shù)規(guī)模和模型規(guī)模的ViT（ViT-B、ViT-L和ViT-H）進(jìn)行測試還發(fā)現(xiàn)，VPT方法不會受影響，依然基本保持性能領(lǐng)先。

而在Swin Transformer中，全面微調(diào)法的平均準(zhǔn)確度雖然更高，但也付出了巨大的參數(shù)代價。

其他微調(diào)方法則全部不敵VPT。

作者介紹

一作賈夢霖，康奈爾大學(xué)信息科學(xué)（Information Science）博士生，主要研究方向為視覺和文本信息的細(xì)粒度識別，截至目前共發(fā)表過4篇頂會。

共同一作為唐路明，也是康奈爾大學(xué)的一位計算機(jī)博士在讀學(xué)生，本科畢業(yè)于清華大學(xué)數(shù)學(xué)與物理專業(yè)。

他的主要研究方向為機(jī)器學(xué)習(xí)和計算機(jī)視覺的交叉領(lǐng)域。

論文地址：

https://arxiv.org/abs/2203.12119

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

CV NLP 模型預(yù)訓(xùn)練

豐色

訓(xùn)練CV模型新思路來了：用NLP大火的Prompt替代微調(diào)，性能全面提升

只使用不到1%的模型參數(shù)

20/24的優(yōu)勝率

作者介紹

相關(guān)閱讀

集合啦，NLP數(shù)據(jù)增強技術(shù)！超全資源匯總

AI助各地返工：重慶語音機(jī)器人、北京無人配送、廣州人臉識別測溫

ACL 2020今日放榜，779篇論文被接收，姚班校友陳丹琦首日演講

AI在這張“問卷”上首次超越人類，SuperGLUE被微軟谷歌兩家“攻破”

不拆分單詞也可以做NLP，哈工大最新模型在多項任務(wù)中打敗BERT，還能直接訓(xùn)練中文

百度一口氣亮出NLP十年積累：完整技術(shù)布局全面披露，面向業(yè)界砸下11項七夕大禮

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創(chuàng) 語音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

寧德時代給9萬+基層員工漲了薪！每月150元

云計算一哥10分鐘發(fā)了25個新品！Kimi和MiniMax首次上桌

前端沒死，AI APP正在返祖