百萬量級的多模態對話數據集來了,153萬張圖片4000多主題,已對學術圈開源|北大&微軟新研究
還支持多種表情符號
羿閣 發自 凹非寺
量子位 | 公眾號 QbitAI
百萬量級的多模態對話數據集來了!
MMDialog,這個由北大&微軟最新發布的英文數據集,包含了108萬個來源于真實世界的高質量對話。
其中包括非重復圖片153萬張,涉及4184個主題,還支持多種表情符號。
就像人在網上聊天時除了文字,還會發表情包、圖片一樣,多模態數據集正是旨在促進AI像人類一樣交談。
舉個例子,下圖是MMDialog收錄的一段人類對話,可以看到,雙方正在用文字、圖片和表情符號談論風景和野生動物。
目前,該數據集已對學術研究領域開源,可訪問文末鏈接獲取使用權限~
MMDialog優勢在哪?
雖然目前開源的英文大規模圖文數據集較為豐富,如Visual Dialog、Image-Chat、OpenViDial、PhotoChat等,但它們或多或少都存在一定的局限性。
比如Visual Dialog僅為針對特定圖片內容的提問與解答,場景與任務的定義比較單一;
Image-Chat是從給定圖像的對話中派生出來的,這種會話中討論的主題通常只由給定圖像觸發和支撐,回復的內容也只有文本信息,這與人類日常對話的發散性并不完全一致;
PhotoChat則是由眾包標注,盡管已比較接近于現實生活中的多模態對話,但仍然受到數據規模較小的限制。
以下圖為例,與PhotoChat相比,MMDialog擁有88倍的對話數量,47倍的主題豐富度,以及140倍的圖片數量。
而且,每段對話平均包含2.59張圖像,且可以位于對話過程的任何位置,更符合人類的交流習慣。
其次,MMDialog的另一大優勢在于其包含了大量的話題,以推廣開放域。
為了保證數據質量,研究人員選擇在某英文在線社交平臺提取帶有某種標簽的對話(例如“#travel”、“#friends”、“#golf”),因為標簽往往概括了文本話語和視覺媒體的主要主題。
具體來說,他們人工篩選出4184個流行的標簽,且保證每個標簽至少收集1000個對話,這樣MMDialog數據集不僅滿足開放域屬性,還可以確保較大的規模。
兩種基線模型
為了用MMDialog數據集建立更真實的對話系統,本文還提出并規范了兩個基于檢索和生成場景的響應式生成任務。
此外,研究人員還為上述任務建立了兩個基線:生成式基線模型、檢索式基線模型,并報告了其實驗性能。
生成式基線模型
如下圖所示,研究人員復現并改進了多模態回復生成的SOTA模型-Divter ,它包括兩個主要部分:一個純文本對話回復生成器G,以及一個文本描述-圖像翻譯器F。
具體來說,在輸入端,G將對話歷史U做為輸入,然后生成一個文本序列,該序列可能包括:文本回復、圖片的文本描述,或同時包括兩者。
然后,圖片翻譯器F會將圖片的文本描述翻譯為圖片回復 ,并將所有的文本回復與圖片回復依次組合起來做為最后的多模態回復。
值得注意的是,在G的輸入端,我們還需要一個圖像-文本描述翻譯模型 ,來將所有對話歷史中的圖像轉化為對應的文本描述。
檢索式基線模型
下圖展示的是多模態檢索模型DE++,研究人員復現并改進了PhotoChat的圖片分享算法,并將其擴展為同時具備判斷模態意圖與檢索文本/圖像的能力。
簡單來說,該模型包括一個回復模態意圖預測模塊和一個回復排序模塊,它們具有相似的模型結構,并利用CLIP分別編碼對話歷史U以及回復候選集C中的文本和圖像。
在模態意圖預測模塊做出下一個元素的模態預測后,排序模塊會從C中選擇與其相關性最高的作為多模態回復的組成部分,直到模態意圖預測模塊判定已被完整檢索回為止。
研究團隊
本篇論文的研究團隊來自北大和微軟。
其中一作馮家展,是北京大學智能學院的博士生,在MSRA實習期間完成本次研究。
論文和GitHub鏈接附在文末,如果你是碩士生/博士生/博士后/教職員工/研究型員工等,可以點擊申請訪問權限~
GitHub鏈接:
https://github.com/victorsungo/MMDialog
論文鏈接:
https://arxiv.org/abs/2211.05719
參考鏈接:
https://mp.weixin.qq.com/s/SArX84T1CDW6p2jWGxPc8A
- 英特爾遭遇「災難級」財報!裁員、砍業務、董事會主席辭職,甚至給不出2023業績預期2023-01-28
- 阿里賈揚清:新一輪AI爆發的推動機制是工程化和開源 | MEET20232023-01-30
- 未知物體也能輕松識別分割,效果可遷移 | DeepMind研究2023-01-26
- 基因療法讓小鼠剩余壽命翻倍,人類長生不老還遠么?2023-01-26



