NLP領域“學霸”太多，一年前標準已過時，新跑分標準SuperGLUE出爐

曉查 2019-08-15 12:47:41 來源：量子位

LeCun推薦

曉查發自凹非寺

量子位報道 | 公眾號 QbitA

DeepMind、紐約大學、華盛頓大學或許怎么也沒有想到，去年4月才推出的NLP測試基準GLUE，這么快就要過時了。

從今年1月到現在，GLUE榜單的頭名已經被微軟、谷歌、Facebook刷新了3次。

這一系列新模型帶來了巨大性能提升，并且都超過了GLUE測試中人類的平均水平，它們的測試分數也已經達到了上限，分差都不超過一分。

這說明GLUE給NLP研究者提供的進步空間已經十分有限了，現在急需一個新的標準拉開這些“學霸”的分差。

于是，原本參與制定GLUE的三家公司和學校聯合Facebook提出了新的測試標準SuperGLUE。SuperGLUE使用谷歌的BERT作為性能測試基準。

我們從最初的GLUE基準測試中吸取的經驗教訓，并推出了SuperGLUE，這是一個采用了GLUE的新基準測試，具有一系列更加困難的語言理解任務、改進的資源和一個新的公共排行榜。

這四家機構希望，通過SuperGLUE這項新標準，引入半監督和自我監督學習的新方法，對更大規模的數據進行訓練，促進NLP領域的創新。

分數對比

在過去GLUE基準測試中，BERT模型與人類的分差不超過10%，最新的RoBERTa略微超過人類。

Facebook在最新的SuperGLUE測試了RoBERTa，它與其中多項任務的人類基線之間仍然存在巨大差距，這說明了當前最先進的自然語言理解系統的一些局限性。

更新內容

Facebook在博客中說，他們選擇了各種格式的任務，這些任務側重于機器學習的許多核心領域的創新，包括樣本遷移、多任務和自監督學習。

SuperGLUE總共包含10項任務，用于測試系統因果推理、識別因果關系、閱讀短文后回答是非問題等等方面的能力。SuperGLUE還包含Winogender，一種性別偏見檢測工具。

這些問題用當前最先進的算法還不能很好地解決，卻很容易被人類理解。

尤其是“選擇合理的替代方案”（COPA）這一項因果推理任務。它要求系統能根據給出的句子，在兩個選項中找出可能的原因或結果。比如：

那個男人的腳趾斷了。這是什么原因造出的？

備選答案1：他的襪子上有一個洞。

備選答案2：他把錘子掉在腳上了。

人類可以在COPA上獲得了100％的準確率，而BERT只有74％，這表明了AI目前存在巨大的進步空間。

為了進一步挑戰AI系統，SuperGLUE還首次引入了長篇問題回答數據集和基準測試，這需要AI能提供長而復雜的答案，這是此前沒有遇到過的挑戰，有助于發現了當今最先進的NLU系統的一些局限性。

目前的問答系統專注于瑣事類型（trivia-type）的問題，例如“水母是否有大腦”。新的任務將更進一步要求系統對開放式問題的深入解答進行詳細的闡述，需要系統能夠回答“水母如何在沒有大腦的情況下運作？”

現有算法與人類的水平還相差很遠，這一新挑戰將推動AI合成來自不同來源的信息，并提供開放式問題的復雜回復。

除了新的測試基準外，紐約大學還同時發布了相關的PyTorch語言理解工具包Jaint。

傳送門

Facebook博客：

https://ai.facebook.com/blog/new-advances-in-natural-language-processing-to-better-connect-people/

SuperGLUE地址：

https://super.gluebenchmark.com/

PyTorch工具包：

https://jiant.info/index.html