別再SOTA了,那叫“微調(diào)”!Science發(fā)文炮轟論文灌水
Science發(fā)文表示:人工智能在某些領(lǐng)域的進(jìn)步引人注目,但這并不是真正的進(jìn)步。
金磊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
AI算法的發(fā)展,真有那么迅猛嗎?
為了一探究竟,來自MIT的研究人員,便對81種AI算法做了橫測,結(jié)果令人大跌眼鏡:
沒有明確證據(jù)表明,這些算法在10年內(nèi),對任務(wù)效果有明顯改善。
針對類似的問題,Science最近也發(fā)文表示:
人工智能在某些領(lǐng)域的進(jìn)步引人注目,但這并不是真正的進(jìn)步。
那么,這到底是怎么一回事?
“是微調(diào),不是核心創(chuàng)新”
MIT研究人員橫測的對象,是81種剪枝算法。
這類算法簡單來說,就是對神經(jīng)網(wǎng)絡(luò)的連接做“修修剪剪”,以此來提高效率。
然而,這種算法的發(fā)展現(xiàn)狀,正如Science發(fā)文作者M(jìn)atthew Hutson所說:
很多科研工作者就在此之上,做了些許“微調(diào)”,然后就宣稱自己的算法具有優(yōu)勢。
因此,MIT的研究人員便對這些算法做了元分析,還提出了一種框架——ShrinkBench,用來促進(jìn)剪枝算法的標(biāo)準(zhǔn)化評估。
真正的好算法,需要經(jīng)得起考驗(yàn),那么結(jié)果又如何呢?
第一輪考驗(yàn):剪枝 vs 架構(gòu)
研究人員基于ImageNet,繪制了剪枝后模型的準(zhǔn)確率和壓縮/加速水平,以及沒有做過剪枝、不同架構(gòu)的相同指標(biāo),結(jié)果如下圖所示。
不難看出,一個(gè)給定架構(gòu)經(jīng)過剪枝后,可以改善其時(shí)間/空間與精度之間的權(quán)衡,有時(shí)候還可以提高精度。
但剪枝的效果,通常不如換個(gè)架構(gòu)效果來得好。
第二輪考驗(yàn):“同行”算法比較
這一維度的考慮,是因?yàn)檠芯咳藛T發(fā)現(xiàn),許多工作都高舉“SOTA”旗幟,然而比較的對象卻不全。
很明顯的現(xiàn)象就是,缺少與2010年之前提出的算法的比較,甚至都沒有跟其它號稱SOTA的算法做對比,如下圖所示。
第三輪考驗(yàn):數(shù)據(jù)集和架構(gòu)的組合
在81篇論文中,ImageNet和VGG-16的組合最為常見,并且,在前六種最常見的組合中,有三種涉及MNIST。
但MNIST與其它主流圖像分類數(shù)據(jù)集有很大的區(qū)別:它的圖像是灰度的,大部分是由0組成,用簡單的模型進(jìn)行分類,準(zhǔn)確率就可以達(dá)到99%以上。
第四輪考驗(yàn):度量指標(biāo)
還有五花八門的度量指標(biāo),啥也不說了,直接上圖。
當(dāng)然,還有諸如數(shù)據(jù)預(yù)處理、調(diào)參策略等一系列問題,都會(huì)導(dǎo)致結(jié)果的不同。
研究一作Davis Blalock表示:
這些改進(jìn)都是所謂的“微調(diào)”,而不是科研人員聲稱的“核心創(chuàng)新”,甚至有些改進(jìn)方法可能根本就不存在。
于是乎,MIT的研究人員便開發(fā)了一套方便開發(fā)、標(biāo)準(zhǔn)化評價(jià)神經(jīng)網(wǎng)絡(luò)的剪枝方法。
ShrinkBench提供了標(biāo)準(zhǔn)化和可擴(kuò)展的功能,可以用于訓(xùn)練、剪枝、微調(diào)、計(jì)算度量和繪圖,而且都是使用標(biāo)準(zhǔn)化的預(yù)訓(xùn)練模型和數(shù)據(jù)集。
正如另一位作者John Guttag所說:
如果你不能衡量某種東西,就很難讓它往好的方向發(fā)展。
好了,現(xiàn)在要是再想在剪枝算法上,稍微搞個(gè)小進(jìn)展就水一篇論文,可能不再那么容易了。
Science發(fā)文炮轟水論文
最近,Science也針對“水論文”一事發(fā)表文章,認(rèn)為人工智能領(lǐng)域中的許多分支,其發(fā)展都是不穩(wěn)定的:
- 2019年,對搜索引擎中使用的信息檢索算法進(jìn)行的一項(xiàng)元分析,得出了一個(gè)“高水位線”(high-water mark),然而,它早在2009年就有了;
- 同樣是2019年,另外一項(xiàng)研究復(fù)現(xiàn)了7個(gè)神經(jīng)網(wǎng)絡(luò)推薦系統(tǒng),結(jié)果,其中6個(gè)系統(tǒng)的表現(xiàn),還沒有多年前開發(fā)的更簡單的非神經(jīng)網(wǎng)絡(luò)算法好;
- 今年2月,卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)科學(xué)家Zico Kolter在arXiv發(fā)表論文,他發(fā)現(xiàn)早期的對抗訓(xùn)練方法PGD,只需要用簡單的小技巧增強(qiáng)一下,就能達(dá)到目前所謂更新、更復(fù)雜方法的效果;
- 今年3月,康奈爾大學(xué)的計(jì)算機(jī)科學(xué)家Kevin Musgrave,在arXiv上發(fā)表了一篇論文研究了損失函數(shù),在一項(xiàng)涉及圖像檢索的任務(wù)中,他對其中十幾個(gè)算法進(jìn)行了平等的比較,結(jié)果發(fā)現(xiàn),與這些科研工作者的說辭恰巧相反,自2006年以來,準(zhǔn)確率就沒有提高過。
正如Musgrave表示:
炒作浪潮一直存在。
反觀那些經(jīng)久不衰的算法,像LSTM,自1997年被提出后,在語言翻譯任務(wù)中取得了重大突破。
如果LSTM得到適當(dāng)?shù)挠?xùn)練,它的性能就能和20年后(現(xiàn)在)的算法相當(dāng)。
類似的還有像2014年提出的GAN,大幅提高了生成圖像的能力。在2018年的一篇報(bào)告稱,只要有足夠的計(jì)算量,原有的GAN方法可以與后來的方法相媲美。
對此,Kolter認(rèn)為,研究人員應(yīng)當(dāng)熱衷于開創(chuàng)全新的算法,讓這個(gè)新算法達(dá)到SOTA效果,而不是對現(xiàn)有算法做調(diào)整。
那么,如今這種論文灌水背后的原因,又是什么呢?
其中一個(gè)因素,便是MIT研究人員所指出的評估標(biāo)準(zhǔn)問題——數(shù)據(jù)集不同、調(diào)整方法不同、性能指標(biāo)和基線都不同,這種比較是不可行的。
而另外一個(gè)原因,便是AI領(lǐng)域的爆炸性增長,論文數(shù)量遠(yuǎn)超有經(jīng)驗(yàn)的審稿人數(shù),評審人員應(yīng)當(dāng)堅(jiān)持跟一個(gè)合理、科學(xué)的基準(zhǔn),做更好的比較。
比論文灌水更可怕的,是造假
以為學(xué)術(shù)亂象只有這些?
不,還有一股“造假風(fēng)”。
5月20日,國外網(wǎng)友便曝出了一個(gè)學(xué)術(shù)造假大事件:
8篇文章,不同作者,不同醫(yī)院,不同癌癥種類,不同蛋白表達(dá),愣是完全一樣的結(jié)果,發(fā)了8篇論文。
UAB醫(yī)學(xué)院糖尿病中心博士后研究員、營養(yǎng)學(xué)博士,微博網(wǎng)友“晨光us”對此表示:
如此喪心病狂的造假,簡直讓人看得窒息。
然而,更令人悲哀的是,論文作者全部來自中國……
而且從文章署名來看,從一線醫(yī)生到主任副主任醫(yī)師、醫(yī)院副院長,還有多篇是國家自然科學(xué)基金資助。
如此造假,簡直不簡單。
網(wǎng)友也表示:
突破了我對學(xué)術(shù)造假的所有認(rèn)知。
無獨(dú)有偶,前不久在知乎中還曝出南京郵電大學(xué)教授,三年半發(fā)表300篇IEEE論文,一時(shí)成為熱議話題。
其弟子“黃同學(xué)”論文造假、冒充北大學(xué)生,也一并上了熱搜。
……
如此學(xué)術(shù)亂象,你怎么看?
傳送門:
ShrinkBench項(xiàng)目地址:
https://github.com/jjgo/shrinkbench
ShrinkBench論文地址:
https://arxiv.org/abs/2003.03033
參考鏈接:
https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real
https://weibo.com/roger1130?referflag=0000015010&from=feed&loc=nickname&is_hot=1#_rnd1591086111501
https://twitter.com/MicrobiomDigest/status/1266140721716719616
https://www.zhihu.com/question/397548354/answer/1248933002




