利用外部知識增加QA答案自然程度,這是阿里的問答模型新思路丨EMNLP
宋恒宇 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
自然語言處理曾被認(rèn)為是人工智能皇冠上的璀璨明珠,現(xiàn)如今再隨著圖像識別等技術(shù)的長足進步,這顆明珠似乎也顯得有些暗淡無光了。
但是,一篇來自阿里巴巴研究團隊提交到EMNLP 2019的關(guān)于自然語言生成文章,似乎為自然語言處理領(lǐng)域重現(xiàn)昔日榮光找到方向。
對于技術(shù)發(fā)展緩慢的解釋,眾說紛紜。我們都希望通過自然語言理解技術(shù)使機器像人一樣,具備正常人的語言理解能力,可不管期望多美好,似乎目前的現(xiàn)實是,包括自然語言生成在內(nèi)的自然語言處理領(lǐng)域陷入了發(fā)展的困境。
那么,這篇來自阿里巴巴的論文究竟有什么樣的力量,讓整個研究領(lǐng)域看到希望?
在這之前我們來回憶一個流傳較廣的小故事:
日本最大的化妝品公司收到客戶抱怨,客戶說他們買來的洗面皂盒子里面是空的,化妝品公司為了預(yù)防生產(chǎn)線再次發(fā)生這樣的事情,于是便請工程師很努力辛苦的研發(fā)了一臺“X-光監(jiān)視器”去透視每一臺出貨的香皂盒,當(dāng)然漏裝的盒子都可被檢查出來。而同樣的問題也發(fā)生在另一家小公司,他們的解決方法是買一臺強力工業(yè)用電扇,放在輸送機末端,去吹每個香皂盒,被吹走的便是沒放香皂的空盒。
我們經(jīng)常用這樣的小故事來告誡自己,面對一個既定想要實現(xiàn)的目標(biāo),當(dāng)利用現(xiàn)有的方式方法很難再獲得較大進步時,或者想要繼續(xù)取得進步需要付出非常大代價時,適當(dāng)?shù)霓D(zhuǎn)變思考或者解決問題的角度,往往會有柳暗花明的情形出現(xiàn)。
回歸正題,上面的小故事與阿里研究團隊該次發(fā)表的論文相似的地方在于解決問題的思路非常相似。
在這篇論文中,阿里研究人員解釋到,與現(xiàn)有的有關(guān)知識感知QA的工作不同,阿里研究團隊未沿著當(dāng)前的研究思路繼續(xù)前進,而是將重點放在更具挑戰(zhàn)性的任務(wù)上,即利用外部知識針對上下文的給定問題生成自然的答案。
相對于其他的神經(jīng)模型,阿里巴巴研究團隊提出的的新的神經(jīng)體系結(jié)構(gòu),專門設(shè)計用于通過整合外部知識來生成更加豐富也更加貼近實際生活的自然語言答案。
阿里團隊的方案
為何需要補充外部知識
在機器理解任務(wù)中,我們要根據(jù)給定的段落回答問題,答案通常是段落的一部分。但是由于缺乏常識和背景知識,機器可能無法理解某些聯(lián)系或無法回答某些問題,例如:
提問:巴拉克·奧巴馬(Barack Obama)出生于美國嗎?
回答:星期一的夏威夷州政府說,他們再次檢查并確認(rèn)巴拉克·奧巴馬總統(tǒng)出生在夏威夷。
在回答這個問題時,人們除了必要的信息,還必須知道夏威夷是美國的一個州。可是對于機器來說,這就是文本語料庫中沒有的外部知識。因此,要想回答許多類似這樣的平凡的問題,需要為QA模型適當(dāng)?shù)匮a充外部知識。
補充的外部知識從何而來
阿里研究團隊稱新的神經(jīng)模型為知識豐富的答案生成器,簡稱KEAG,它能夠利用知識庫中的符號知識來生成答案中的每個單詞。特別是,研究人員假設(shè)每個單詞都是從以下四個信息源中的一個生成的:1、問題,2、段落,3、詞匯和4、知識。
如何從來源中選取需要的知識
為了實現(xiàn)這個目標(biāo),研究人員引入了“源選擇器”,它是KEAG中的一個定點組件,允許靈活地決定尋找哪個源來生成每個答案詞。在阿里研究團隊看來,“源選擇器”實現(xiàn)的功能是至關(guān)重要的。雖然外部的知識的確在答案的某些部分中起著重要作用,但是在答案的其余部分,給定的文本信息還是應(yīng)該優(yōu)先外部知識進行考慮。
KEAG架構(gòu)
首先,介紹一下KEAG架構(gòu)。
問題和段落經(jīng)過擴展后,將結(jié)果輸入到源選擇器中以生成自然的答案。
△ KEAG架構(gòu)
一切從源選擇器的每次迭代開始,在生成答案的過程中,每次迭代,KEAG都從運行源選擇器開始,從問題,段落,詞匯和知識其中一個源中選擇一個單詞。
△ 說明了源選擇器在解碼過程中如何在一個完整迭代中工作
在迭代之后,如何將選擇的各種知識進行整合成為關(guān)鍵一環(huán),在這一部分,主要涉及兩個重要操作,即針對一個給定的問題從知識庫中提取相關(guān)事實,然后從中選擇可以用于答案組合的最相關(guān)事實。
△ 相關(guān)事實提取與事實選擇
實現(xiàn)上述功能的原理如上圖所示,顯示了如何從一組相關(guān)事實中選擇一個事實以完成答案。
KEAG實戰(zhàn)表現(xiàn)如何
鑒于研究團隊的目標(biāo)是通過文檔閱讀生成自然的答案,因此,Microsoft發(fā)布的MARCO數(shù)據(jù)集(Nguyen等,2016)是基準(zhǔn)測試KEAG和其他答案生成方法的最佳選擇。
研究人員使用最新的MARCO V2.1數(shù)據(jù)集,并專注于評估中的“ Q&A +自然語言生成”任務(wù),這個任務(wù)的目標(biāo)是提供最佳的可以被智能設(shè)備/數(shù)字助理使用的自然語言答案。
鑒于MARCO測試集中沒有真正的答案,所以在實驗中采用擁有12467個QA對的開發(fā)集進行評估。評估工具使用的指標(biāo)沿用MARCO官方使用的BLEU-1和ROUGE-L,以期達到根據(jù)基本事實評估生成的答案的質(zhì)量的目的。
而外部知識的來源庫,研究團隊使用的是ConceptNet,ConceptNet是一個語義網(wǎng)絡(luò),表示單詞和短語以及它們之間的常識關(guān)系。這是使用最廣泛的常識知識庫之一。在過濾掉很少事實的非英語實體和關(guān)系類型之后,仍然有2,823,089個事實三元組和32個關(guān)系類型供模型使用。
在此需要強調(diào)的一點是:KEAG具有通用性,因此也可以應(yīng)用于其他知識庫。
在培訓(xùn)和測試階段,研究人員將一段文字截斷為800個單詞,并將答案的長度限制為120個單詞。利用16個Tesla M40 GPU進行訓(xùn)練。在測試時,使用大小為4搜索生成答案。
在上文前提下,獲得了KEAG與其他模型比較的結(jié)果:
從圖中我們可以看到,在回答質(zhì)量方面,抽象的QA模型(例如KEAG)始終優(yōu)于提取類模型(例如BiDAF)。
因此,抽象的QA模型建立了強大的基礎(chǔ)架構(gòu),可以通過外部知識加以增強,從而加強了這項工作。在抽象模型中,gQA可以看作是KEAG的簡化形式,它無需使用知識即可從段落和詞匯中生成答案詞。
另外,KEAG包含了隨機源選擇器,而gQA沒有。KEAG明顯優(yōu)于gQA的結(jié)果證明了KEAG架構(gòu)的有效性和知識整合的好處。
下圖顯示了KEAG的指標(biāo)與同樣利用了知識的最新QA模型的指標(biāo)比較結(jié)果:
從圖中可以清楚地看到,在知識豐富的答案生成模型中,KEAG的Rouge-L和Bleu-1得分最高,表現(xiàn)最佳。這主要得益于KEAG與其他模型之間不同的將外部知識納入模型的方式。KEAG利用兩個隨機選擇器來確定何時利用知識以及使用哪個事實。這在利用外部知識生成抽象答案方面帶來了更多優(yōu)勢。
由于Rouge-L和Bleu-1都無法根據(jù)其正確性和準(zhǔn)確性來衡量所生成答案的質(zhì)量,因此我們還對Amazon Mechanica Turk進行了人工評估。主要評估答案在語法和正確性方面的質(zhì)量。
上圖報告了KEAG的人類評估得分情況,從得分比較來看,KEAG模型在語法上和實質(zhì)上產(chǎn)生正確的答案方面優(yōu)于其他所有模型。這證明了其在利用外部知識方面的能力。
接下來的是關(guān)于消融研究,進行消融研究目的是評估KEAG中每個組件的單獨貢獻。
上圖是完整KEAG模型及其消融的性能。我們通過從KEAG的架構(gòu)中刪除補充知識和相應(yīng)的事實選擇模塊,評估將外部知識作為補充信息納入到自然答案生成中的貢獻。
可以看出,知識部分在生成高質(zhì)量答案中起著重要作用,在刪除補充知識后,Rouge-L降至49.98。最后在檢測源選擇器的能力時,刪除了源選擇器的新模型Rouge-L下降明顯直至38.33,從而確認(rèn)了其在生成自然答案中的有效性。
實例介紹
最后,通過研究團隊提供的一個例子,來檢測整體新的神經(jīng)模型效用如何,該圖可視化了答案中各個單詞的來源,可將其分為兩部分查看。
第一部分帶有源概率的答案部分,分別顯示針對從問題,段落,詞匯和知識中選擇的答案詞的熱圖。具有較高源概率的答案組成部分以深青色突出顯示。
第二部分是“按來源涂色的答案”,其中每個單詞都根據(jù)實際選擇的來源涂上顏色。藍(lán)色的單詞來自問題,紅色來自段落,綠色來自詞匯,橙色來自知識。
未來可期
看到這里大家是不是同樣也有一些小小的激動呢?
雖然該研究仍然處于起步階段,但是,正如研究團隊在報告中提到的,“這項工作為以有針對性的方式更深入地研究答案生成模型打開了大門”。新的天地已然通過打開的“大門”向所有人展示了它所蘊藏的巨大的價值。
傳送門
Incorporating External Knowledge into Machine Reading for Generative Question Answering
Bin Bi, Chen Wu, Ming Yan, Wei Wang, Jiangnan Xia, Chenliang Li
https://arxiv.org/pdf/1909.02745.pdf



