最先進的NAS算法不如隨機搜索,瑞士學者研究結(jié)果讓人吃驚,也令人懷疑
曉查 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
最先進的神經(jīng)架構(gòu)搜索(NAS)算法竟然不如隨機搜索?
來自瑞士電信和EPFL的研究者提出了一種評價NAS搜索階段的測試基準。他們發(fā)現(xiàn),最先進的三種NAS算法DARTS、NAO、ENAS往往與隨機搜索完全相同,甚至在某些情況下還不如隨機搜索。
因此,他們希望,用這套評估方法能夠啟發(fā)其他人,讓研究者去尋找新的NAS算法搜索策略。
NAS與隨機搜索
NAS算法分為兩個階段:搜索體系結(jié)構(gòu)空間、驗證最佳體系結(jié)構(gòu)。
在搜索階段,采樣器被訓練到收斂或預定義的停止標準。評估階段會從頭開始訓練最佳模型,并根據(jù)測試數(shù)據(jù)對其進行評估。
在搜索階段,NAS算法用到了兩個近似:減少搜索空間、跨不同體系結(jié)構(gòu)的權(quán)重共享。
目前的評估方法僅通過比較下游任務的結(jié)果來評估NAS算法。雖然直觀,但未能明確評估其搜索策略的有效性。
因此,研究人員將NAS評估程序擴展到包括搜索階段,把NAS搜索策略獲得的解決方案與隨機選擇進行比較,從而的出搜索階段的算法對最終結(jié)果的影響。
與普通的NAS不同的是,研究人員將NAS策略找到的最佳體系結(jié)構(gòu)與單個統(tǒng)一隨機采樣體系結(jié)構(gòu)進行比較。
為了使這個比較有意義,他們用不同的隨機種子重復計算,以便訓練NAS采樣器和隨機搜索策略,然后比較不同種子的平均值和標準偏差。
對比實驗是在詞級語言模型賓夕法尼亞樹庫(PTB)數(shù)據(jù)集上進行的。神經(jīng)網(wǎng)絡的目標是找到一個循環(huán)單元,正確地預測給定輸入序列的下一個單詞。然后使用標準的困惑度量來評估候選網(wǎng)絡的質(zhì)量。
最終的實驗結(jié)果如下圖,研究人員繪制了在1000個epoch內(nèi)使用10種不同種子發(fā)現(xiàn)的最佳網(wǎng)絡結(jié)構(gòu)的平均困惑度演化。
圖的左側(cè)展示了10種不同種子在三個NAS和一個隨機搜索中的平均結(jié)果,右側(cè)展示了四種算法的最佳結(jié)果。用表格顯示結(jié)果:
為了讓NAS和隨機搜索更容易找到最佳的網(wǎng)絡架構(gòu),研究人員縮小了搜索空間,減少了節(jié)點樹,讓實驗只有32中可能的解決方案。
結(jié)果即使在這個空間中,NAS也沒有找到最佳解決方案。這讓作者懷疑是否因為權(quán)重共享導致了基較差的結(jié)果,因此他們?nèi)サ袅藱?quán)重共享,并和原來的方案進行對比。
實驗結(jié)果證明了作者的猜想。
最后,論文得出了三點結(jié)論:
- 平均而言,隨機策略優(yōu)于最先進的NAS算法;
- NAS算法的結(jié)果和候選排名并不反映候選架構(gòu)的真實表現(xiàn);
- 權(quán)重共享策略會對訓練產(chǎn)生負面影響,從而降低搜索過程的有效性。
網(wǎng)友的質(zhì)疑
這篇論文結(jié)論的一反常態(tài),無疑讓研究NAS的人都大吃一驚。因此這篇論文在Reddit的機器學習板塊上發(fā)表后,有不少網(wǎng)友對此產(chǎn)生了質(zhì)疑。
首先,他們認為文中的測試基線過于簡單,不太具有說服力。
作者也在指出了文中的隨機搜索本來就是經(jīng)過NAS篩選的結(jié)果。因為NAS算法的搜索空間在構(gòu)造過程中受到了足夠的約束,因此即使是這個空間中的隨機架構(gòu)也能提供良好的結(jié)果。
所以這篇文章的目的不是徹底否定NAS,而是提供一種搜索網(wǎng)絡架構(gòu)的新思路。
傳送門
論文地址:
https://arxiv.org/abs/1902.08142
Reddit討論地址:
https://www.reddit.com/r/MachineLearning/comments/cycw35/r_random_search_outperforms_stateoftheart_nas/
- 腦機接口走向現(xiàn)實,11張PPT看懂中國腦機接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現(xiàn)場狂做筆記2022-03-11
- 阿里數(shù)學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅(qū)動,否則公布1TB機密數(shù)據(jù)2022-03-05




