訓練CV模型新思路來了：用NLP大火的Prompt替代微調(diào)，性能全面提升

豐色 2022-03-25 16:23:47 來源：量子位

24個圖像識別任務勝出20個

Prompt tuning，作為NLP領(lǐng)域中的一個“新寵”，甚至曾被學者譽為NLP預訓練新范式。

那么，它能否借鑒到CV領(lǐng)域并產(chǎn)生同樣的成績呢？

現(xiàn)在，來自康奈爾大學和Meta AI等機構(gòu)，通過Prompt來調(diào)整基于Transformer的視覺模型，結(jié)果發(fā)現(xiàn)：

完全可以！

比起全面微調(diào)，Prompt性能提升顯著。無論模型的規(guī)模和訓練數(shù)據(jù)怎么變，24種情況中有20種都完全勝出。

視覺Prompt來了！凍結(jié)主干調(diào)節(jié)1%參數(shù)，效果超越傳統(tǒng)微調(diào)

與此同時，它還能大幅降低每項任務所需的存儲成本。

只使用不到1%的模型參數(shù)

大家一貫使用的全面微調(diào)（full fine-tuning），需要為每個下游任務存儲和部署單獨的主干參數(shù)副本，成本太高，尤其是現(xiàn)在基于Transformer的模型越來越大，已經(jīng)超過CNN架構(gòu)。

所謂Prompt，最初指的是在輸入文本中預編語言指令，以便預培訓的語言模型后續(xù)可以直接理解各種下游任務。

它曾讓GPT-3即使在少樣本或零樣本的情況下表現(xiàn)出很強的泛化能力。

最近一些成果則表明，Prompt與完全微調(diào)的性能相當，參數(shù)存儲量還減少了1000倍。

NLP中的高超性能讓不少人開始在CV領(lǐng)域中探索Prompt的魔力，不過都只局限于跨模態(tài)任務中文本編碼器的輸入。

在本文中，作者將他們所提出的Visual Prompt Tuning方法，簡稱為VPT。這是首次有人將Prompt應用到視覺模型主干（backbone），并做出成果。

具體來說，比起全面微調(diào)，VPT受最新大型NLP模型調(diào)整方法的啟發(fā)，只在輸入空間中引入少量可特定某任務訓練的參數(shù)（不到模型參數(shù)的1%），同時在訓練下游任務期間凍結(jié)（freeze）預訓練模型的主干。

在實操中，這些附加參數(shù)只用預先加入到每個Transformer層的輸入序列中，并在微調(diào)期間與線性head一起學習。

他們一共探索出兩種變體：

VPT-Deep變體為Transformer編碼器每層的輸入預先設置一組可學習的參數(shù)；

VPT-Shallow變體則僅將提示參數(shù)插入第一層的輸入。

兩者在下游任務的訓練過程中，只有特定于任務的提示和線性頭的參數(shù)會更新，而整個Transformer編碼器被凍結(jié)。

接下來，是騾子是馬？拉出來溜溜～

20/24的優(yōu)勝率

實驗涉及兩種在ImageNet-21k上預訓練好的主干，一個來自Vision Transformer，一個來自Swin Transformer。

進行對比的微調(diào)方法有三大種，7小種，包括：

（1）完全微調(diào)：更新所有主干和分類頭（classification head）參數(shù)

（2）以分類頭為重點的微調(diào)，包括Linear、Partial-k和Mlp-k三種；

（3）以及在微調(diào)過程中更新一個主干子集參數(shù)或向主干添加新的可訓練參數(shù)的方法，分為Sidetune、Bias和Adapter三種。

實驗的數(shù)據(jù)集有兩組，一共涉及24個跨不同領(lǐng)域的下游識別任務，包括：

（1）由5個基準細粒度視覺分類任務組成的FGVC；

（2）由19個不同視覺分類集合組成的VTAB-1k，細分為使用標準相機拍攝的自然圖像任務（Natural）、用專用設備（如衛(wèi)星圖像）捕獲的圖像任務（Specialized）以及需要幾何理解的任務（Structured），比如物體計數(shù)。

測得每項任務上的平均準確度后，得出的主要結(jié)果如下：

VPT-Deep在24個任務中有20個的表現(xiàn)都優(yōu)于全面微調(diào)，同時使用的總模型參數(shù)顯著減少（1.18× vs. 24.02×）；

要知道，在NLP領(lǐng)域中Prompt再厲害，性能也不會超過全面微調(diào)。這說明Prompt很適用于視覺Transformer模型。

和其他微調(diào)方法相比（b、c組），VPT-Deep的性能則全部勝出。

此外，選擇不同主干參數(shù)規(guī)模和模型規(guī)模的ViT（ViT-B、ViT-L和ViT-H）進行測試還發(fā)現(xiàn)，VPT方法不會受影響，依然基本保持性能領(lǐng)先。

而在Swin Transformer中，全面微調(diào)法的平均準確度雖然更高，但也付出了巨大的參數(shù)代價。

其他微調(diào)方法則全部不敵VPT。

作者介紹

一作賈夢霖，康奈爾大學信息科學（Information Science）博士生，主要研究方向為視覺和文本信息的細粒度識別，截至目前共發(fā)表過4篇頂會。

共同一作為唐路明，也是康奈爾大學的一位計算機博士在讀學生，本科畢業(yè)于清華大學數(shù)學與物理專業(yè)。

他的主要研究方向為機器學習和計算機視覺的交叉領(lǐng)域。

論文地址：

https://arxiv.org/abs/2203.12119

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

CV NLP 模型預訓練

豐色

訓練CV模型新思路來了：用NLP大火的Prompt替代微調(diào)，性能全面提升

只使用不到1%的模型參數(shù)

20/24的優(yōu)勝率

作者介紹

相關(guān)閱讀

NLP領(lǐng)域“學霸”太多，一年前標準已過時，新跑分標準SuperGLUE出爐

「00后縮寫黑話翻譯器」登上GitHub熱榜，中年網(wǎng)民終于能看懂年輕人的awsl

大三學生獨自破解逆天語言AI模型：我只是把撩妹的時間，都用來研究機器學習了

NLP新秀prompt跨界出圈，清華劉知遠最新論文將它應用到VLM圖像端

人人都能用的多語種大模型來了！支持59種語言，參數(shù)1760億，1000名科學家聯(lián)合發(fā)起

百度發(fā)布全球最大中文單體模型！2600億參數(shù)，瞄準規(guī)模化產(chǎn)業(yè)應用

熱門文章

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術(shù)報告還是老外看得細

谷歌新架構(gòu)突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年