讓AI自己調整超參數,谷歌大腦新優化器火了,自適應不同任務,83個任務訓練加速比經典Adam更快
項目代碼已開源
蕭簫 發自 凹非寺
量子位 | 公眾號 QbitAI
還在苦惱怎么給優化器調整更好的參數嗎?
現在,谷歌大腦搞出了一個新的優化器VeLO,無需手動調整任何超參數,直接用就完事了。
與其他人工設計的如Adam、AdaGrad等算法不同,VeLO完全基于AI構造,能夠很好地適應各種不同的任務。
當然,效果也更好。論文作者之一Lucas Beyer將VeLO與其他“重度”調參的優化器進行了對比,性能不相上下:
有網友看到了一絲優化器進步的曙光:
在Adam之后出現了不少優化器,卻都表現得非常失敗。這個優化器或許確實能表現更好。
所以,這個基于AI的優化器是如何打造的?
VeLO究竟是怎么打造的?
在訓練神經網絡的過程中,優化器(optimizer)是必不可少的一部分。
△神經網絡訓練過程,圖源Thomas Wolf
但AI模型應用都這么廣泛了,訓練AI模型用的優化器卻仍然是人工設計的,聽起來多少有點不合理。
于是谷歌大腦的研究人員靈機一動:為何不用AI來做一個優化器呢?
設計上,優化器的原理基于元學習的思路,即從相關任務上學習經驗,來幫助學習目標任務。
相比遷移學習,元學習更強調獲取元知識,它是一類任務上的通用知識,可以被泛化到更多任務上去。
基于這一思想,VeLO也會吸收梯度并自動輸出參數更新,無需任何超參數調優,并自適應需要優化的各種任務。
架構上,AI優化器整體由LSTM(長短期記憶網絡)和超網絡MLP(多層感知機)構成。
其中每個LSTM負責設置多個MLP的參數,各個LSTM之間則通過全局上下文信息進行相互協作。
訓練上,AI優化器采用元訓練的方式,以參數值和梯度作為輸入,輸出需要更新的參數。
經過4000個TPU月(一塊TPU運行4000個月的計算量)的訓練,集各種優化任務之所長后,VeLO終于橫空出世。
比人工調參優化器效果更好
結果表明,VeLO在83個任務上的加速效果超過了一系列當前已有的優化器。
其中y軸是相比Adam加速的倍率,x軸是任務的比例。
結果顯示,VeLO不僅比無需調整超參數的優化器效果更好,甚至比仔細調整過超參數的一些優化器效果還好:
與“經典老大哥”Adam相比,VeLO在所有任務上訓練加速都更快,其中50%以上的任務比調整學習率的Adam快4倍以上,14%以上的任務中,VeLO學習率甚至快上16倍。
而在6類學習任務(數據集+對應模型)的優化效果上,VeLO在其中5類任務上表現效果都與Adam相當甚至更好:
值得一提的是,這次VeLO也被部署在JAX中,看來谷歌是真的很大力推廣這個新框架了。
巴特,也有網友認為耗費4000個TPU月來訓練VeLO,計算量成本過大:
雖然這個進展很重要,但它甚至都快趕上GPT-3的訓練量了。
目前VeLO已經開源,感興趣的小伙伴們可以去試試這個新的AI優化器。
One More Thing
前段時間,一位哈佛博士生提了個有意思的想法,得到不少人贊同:
更多論文的作者們也應該像演職員表一樣,公開自己在論文中的工作內容。
Kareem Carr是生物統計學領域的博士生,作者貢獻在生物論文中比較常見,不過之前在AI論文中見得不多。
現在,這篇谷歌大腦論文的作者們也這樣做了,誰寫的論文、誰搭建的框架一目了然:
不知道以后會不會成為機器學習圈的新風氣(手動狗頭)。
GitHub地址:
https://github.com/google/learned_optimization/tree/main/learned_optimization/research/general_lopt
論文地址:
https://arxiv.org/abs/2211.09760
參考鏈接:
[1]https://twitter.com/jmes_harrison/status/1593422054971174912
[2]https://medium.com/huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a#afeb
[3]https://mp.weixin.qq.com/s/QLzdW6CMkcXWQbGjtOBNwg
- 首個GPT-4驅動的人形機器人!無需編程+零樣本學習,還可根據口頭反饋調整行為2023-12-13
- IDC霍錦潔:AI PC將顛覆性變革PC產業2023-12-08
- AI視覺字謎爆火!夢露轉180°秒變愛因斯坦,英偉達高級AI科學家:近期最酷的擴散模型2023-12-03
- 蘋果大模型最大動作:開源M芯專用ML框架,能跑70億大模型2023-12-07




