利用外部知識增加QA答案自然程度,這是阿里的問答模型新思路丨EMNLP
宋恒宇 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
自然語言處理曾被認為是人工智能皇冠上的璀璨明珠,現如今再隨著圖像識別等技術的長足進步,這顆明珠似乎也顯得有些暗淡無光了。
但是,一篇來自阿里巴巴研究團隊提交到EMNLP 2019的關于自然語言生成文章,似乎為自然語言處理領域重現昔日榮光找到方向。
對于技術發展緩慢的解釋,眾說紛紜。我們都希望通過自然語言理解技術使機器像人一樣,具備正常人的語言理解能力,可不管期望多美好,似乎目前的現實是,包括自然語言生成在內的自然語言處理領域陷入了發展的困境。
那么,這篇來自阿里巴巴的論文究竟有什么樣的力量,讓整個研究領域看到希望?
在這之前我們來回憶一個流傳較廣的小故事:
日本最大的化妝品公司收到客戶抱怨,客戶說他們買來的洗面皂盒子里面是空的,化妝品公司為了預防生產線再次發生這樣的事情,于是便請工程師很努力辛苦的研發了一臺“X-光監視器”去透視每一臺出貨的香皂盒,當然漏裝的盒子都可被檢查出來。而同樣的問題也發生在另一家小公司,他們的解決方法是買一臺強力工業用電扇,放在輸送機末端,去吹每個香皂盒,被吹走的便是沒放香皂的空盒。
我們經常用這樣的小故事來告誡自己,面對一個既定想要實現的目標,當利用現有的方式方法很難再獲得較大進步時,或者想要繼續取得進步需要付出非常大代價時,適當的轉變思考或者解決問題的角度,往往會有柳暗花明的情形出現。
回歸正題,上面的小故事與阿里研究團隊該次發表的論文相似的地方在于解決問題的思路非常相似。
在這篇論文中,阿里研究人員解釋到,與現有的有關知識感知QA的工作不同,阿里研究團隊未沿著當前的研究思路繼續前進,而是將重點放在更具挑戰性的任務上,即利用外部知識針對上下文的給定問題生成自然的答案。
相對于其他的神經模型,阿里巴巴研究團隊提出的的新的神經體系結構,專門設計用于通過整合外部知識來生成更加豐富也更加貼近實際生活的自然語言答案。
阿里團隊的方案
為何需要補充外部知識
在機器理解任務中,我們要根據給定的段落回答問題,答案通常是段落的一部分。但是由于缺乏常識和背景知識,機器可能無法理解某些聯系或無法回答某些問題,例如:
提問:巴拉克·奧巴馬(Barack Obama)出生于美國嗎?
回答:星期一的夏威夷州政府說,他們再次檢查并確認巴拉克·奧巴馬總統出生在夏威夷。
在回答這個問題時,人們除了必要的信息,還必須知道夏威夷是美國的一個州。可是對于機器來說,這就是文本語料庫中沒有的外部知識。因此,要想回答許多類似這樣的平凡的問題,需要為QA模型適當地補充外部知識。
補充的外部知識從何而來
阿里研究團隊稱新的神經模型為知識豐富的答案生成器,簡稱KEAG,它能夠利用知識庫中的符號知識來生成答案中的每個單詞。特別是,研究人員假設每個單詞都是從以下四個信息源中的一個生成的:1、問題,2、段落,3、詞匯和4、知識。
如何從來源中選取需要的知識
為了實現這個目標,研究人員引入了“源選擇器”,它是KEAG中的一個定點組件,允許靈活地決定尋找哪個源來生成每個答案詞。在阿里研究團隊看來,“源選擇器”實現的功能是至關重要的。雖然外部的知識的確在答案的某些部分中起著重要作用,但是在答案的其余部分,給定的文本信息還是應該優先外部知識進行考慮。
KEAG架構
首先,介紹一下KEAG架構。
問題和段落經過擴展后,將結果輸入到源選擇器中以生成自然的答案。
△ KEAG架構
一切從源選擇器的每次迭代開始,在生成答案的過程中,每次迭代,KEAG都從運行源選擇器開始,從問題,段落,詞匯和知識其中一個源中選擇一個單詞。
△ 說明了源選擇器在解碼過程中如何在一個完整迭代中工作
在迭代之后,如何將選擇的各種知識進行整合成為關鍵一環,在這一部分,主要涉及兩個重要操作,即針對一個給定的問題從知識庫中提取相關事實,然后從中選擇可以用于答案組合的最相關事實。
△ 相關事實提取與事實選擇
實現上述功能的原理如上圖所示,顯示了如何從一組相關事實中選擇一個事實以完成答案。
KEAG實戰表現如何
鑒于研究團隊的目標是通過文檔閱讀生成自然的答案,因此,Microsoft發布的MARCO數據集(Nguyen等,2016)是基準測試KEAG和其他答案生成方法的最佳選擇。
研究人員使用最新的MARCO V2.1數據集,并專注于評估中的“ Q&A +自然語言生成”任務,這個任務的目標是提供最佳的可以被智能設備/數字助理使用的自然語言答案。
鑒于MARCO測試集中沒有真正的答案,所以在實驗中采用擁有12467個QA對的開發集進行評估。評估工具使用的指標沿用MARCO官方使用的BLEU-1和ROUGE-L,以期達到根據基本事實評估生成的答案的質量的目的。
而外部知識的來源庫,研究團隊使用的是ConceptNet,ConceptNet是一個語義網絡,表示單詞和短語以及它們之間的常識關系。這是使用最廣泛的常識知識庫之一。在過濾掉很少事實的非英語實體和關系類型之后,仍然有2,823,089個事實三元組和32個關系類型供模型使用。
在此需要強調的一點是:KEAG具有通用性,因此也可以應用于其他知識庫。
在培訓和測試階段,研究人員將一段文字截斷為800個單詞,并將答案的長度限制為120個單詞。利用16個Tesla M40 GPU進行訓練。在測試時,使用大小為4搜索生成答案。
在上文前提下,獲得了KEAG與其他模型比較的結果:
從圖中我們可以看到,在回答質量方面,抽象的QA模型(例如KEAG)始終優于提取類模型(例如BiDAF)。
因此,抽象的QA模型建立了強大的基礎架構,可以通過外部知識加以增強,從而加強了這項工作。在抽象模型中,gQA可以看作是KEAG的簡化形式,它無需使用知識即可從段落和詞匯中生成答案詞。
另外,KEAG包含了隨機源選擇器,而gQA沒有。KEAG明顯優于gQA的結果證明了KEAG架構的有效性和知識整合的好處。
下圖顯示了KEAG的指標與同樣利用了知識的最新QA模型的指標比較結果:
從圖中可以清楚地看到,在知識豐富的答案生成模型中,KEAG的Rouge-L和Bleu-1得分最高,表現最佳。這主要得益于KEAG與其他模型之間不同的將外部知識納入模型的方式。KEAG利用兩個隨機選擇器來確定何時利用知識以及使用哪個事實。這在利用外部知識生成抽象答案方面帶來了更多優勢。
由于Rouge-L和Bleu-1都無法根據其正確性和準確性來衡量所生成答案的質量,因此我們還對Amazon Mechanica Turk進行了人工評估。主要評估答案在語法和正確性方面的質量。
上圖報告了KEAG的人類評估得分情況,從得分比較來看,KEAG模型在語法上和實質上產生正確的答案方面優于其他所有模型。這證明了其在利用外部知識方面的能力。
接下來的是關于消融研究,進行消融研究目的是評估KEAG中每個組件的單獨貢獻。
上圖是完整KEAG模型及其消融的性能。我們通過從KEAG的架構中刪除補充知識和相應的事實選擇模塊,評估將外部知識作為補充信息納入到自然答案生成中的貢獻。
可以看出,知識部分在生成高質量答案中起著重要作用,在刪除補充知識后,Rouge-L降至49.98。最后在檢測源選擇器的能力時,刪除了源選擇器的新模型Rouge-L下降明顯直至38.33,從而確認了其在生成自然答案中的有效性。
實例介紹
最后,通過研究團隊提供的一個例子,來檢測整體新的神經模型效用如何,該圖可視化了答案中各個單詞的來源,可將其分為兩部分查看。
第一部分帶有源概率的答案部分,分別顯示針對從問題,段落,詞匯和知識中選擇的答案詞的熱圖。具有較高源概率的答案組成部分以深青色突出顯示。
第二部分是“按來源涂色的答案”,其中每個單詞都根據實際選擇的來源涂上顏色。藍色的單詞來自問題,紅色來自段落,綠色來自詞匯,橙色來自知識。
未來可期
看到這里大家是不是同樣也有一些小小的激動呢?
雖然該研究仍然處于起步階段,但是,正如研究團隊在報告中提到的,“這項工作為以有針對性的方式更深入地研究答案生成模型打開了大門”。新的天地已然通過打開的“大門”向所有人展示了它所蘊藏的巨大的價值。
傳送門
Incorporating External Knowledge into Machine Reading for Generative Question Answering
Bin Bi, Chen Wu, Ming Yan, Wei Wang, Jiangnan Xia, Chenliang Li
https://arxiv.org/pdf/1909.02745.pdf
- IDC MarketScape: 容聯云位居“中國AI賦能的聯絡中心”領導者類別2025-12-11
- 九章云極獨攬量子位三項大獎:以“一度算力”重構AI基礎設施云格局2025-12-10
- 視頻理解霸榜!快手Keye-VL旗艦模型重磅開源,多模態視頻感知領頭羊2025-11-28
- 中國唯一!阿里千問斬獲全球AI頂會最佳論文2025-11-28



