百度一口氣亮出NLP十年積累：完整技術布局全面披露，面向業界砸下11項七夕大禮

魚羊 2020-08-25 13:06:28 來源：量子位

十年積累，一朝亮相

魚羊發自凹非寺
量子位報道 | 公眾號 QbitAI

十年，從名不見經傳到世界舞臺中央，中國NLP經歷怎樣的歷程，未來又將向何處去？

ACL首任華人主席、百度CTO王海峰說：站在百度的角度，過去到未來，語言與知識布局始終要把握兩大趨勢——技術前沿與產業發展。

作為國內最早設立NLP研發部門的企業，百度可以說是中國NLP十年「披荊斬棘」的全程參與者、見證者。

自2010年起，百度就已經將NLP研發部門從各個業務線中獨立出來，一面攻堅前沿技術，一面追求業務落地。

如今，十年技術積累，一朝完整亮相：

史無前例、最全面的百度語言與知識技術成果分享；
重磅推出5款語言與知識產品新發布；
還有全球最大的產學研共建中文語言與知識數據集計劃公布。

并且，走在語言與知識領域開源之先的百度，還在七夕這一天，為NLP從業者們奉上了一份「十周年大禮」：

發布百度語言與知識算力共享計劃。

王海峰詳解百度語言與知識完整布局

今天，百度大腦語言與知識技術峰會在線舉行。

王海峰全面分享了百度語言與知識技術完整布局和最新成果。

作為國內最早代表工業界亮相NLP頂會的企業，百度十年以來的技術成果不可謂不豐碩：

包括國家科技進步獎在內的20多個獎項，30多項國際競賽冠軍，發表學術論文超過300篇，申請專利2000多項。

并且，這些技術創新也在源源不斷地落地到實際產品當中，語義理解技術與平臺文心（ERNIE）、智能對話定制和服務平臺UNIT、自動文稿轉視頻的智能創作平臺……

所以，百度是如何把握語言與知識這艘航船的方向，使其在產業前沿「乘風破浪」的？

王海峰說：

在百度語言與知識技術的布局和發展中，我們始終在注意把握兩個趨勢，即技術發展趨勢和產業發展趨勢，并力爭引領趨勢。

王海峰談到，語言與知識技術是人工智能認知能力的核心，以語言和知識為研究對象，讓機器像人一樣掌握知識、理解語言的自然語言處理技術，對于人工智能發展至關重要。

正是基于這樣的前瞻性判斷，在人工智能尚未成為顯學的2010年，百度就正式成立了NLP部門，展示了攻堅前沿技術的決心。

王海峰表示，歷經近十年發展，百度已經構建了完整的語言與知識技術布局，包括知識圖譜、語言理解與生成技術，以及上述技術所支持的包含智能搜索、機器翻譯、對話系統、智能寫作、深度問答等在內的的應用系統。

以知識圖譜為基礎

具體而言，知識圖譜是機器認知世界的基礎。

王海峰指出，機器認知能力的突破，越來越依賴對知識和大規模知識圖譜的運用。

在這方面，百度打造了世界上最大的多元異構知識圖譜，擁有超過50億實體和5500億事實，并在不斷演進和更新，應用于各行各業。現在，其每日調用次數超過400億次。

不僅如此，針對不同應用場景和知識形態，百度還建立起多樣化的知識圖譜類型，既有基礎的實體知識圖譜，也有行業知識圖譜、事件圖譜、關注點圖譜等，以及融合語音、視頻、圖片的多模態知識圖譜。

這背后，是百度創建的包括無標簽大數據開放知識挖掘技術、知識體系自擴展的知識圖譜自學習技術、以及融合多元異構數據的知識補全與整合技術在內一整套知識圖譜構建方法。

突破語言理解、語言生成關鍵技術

有了豐富知識的加持，語言理解相關技術的能力就能不斷增強。

比如，百度提出可持續學習的知識增強語義理解框架ERNIE，在深度學習的基礎上融入知識，具備人類一樣的持續學習能力，曾一舉登頂全球權威數據集GLUE榜單，首次突破90分大關，并且超越人類得分。

而通過融入知識、語義理解、以及增強小樣本學習能力，機器的閱讀理解和對話能力也在迅速增強。

進而，考慮到機器認知世界，往往不僅局限于自然語言，而是對語音、視覺等多模態信息的綜合應用，知識增強的跨模態深度語義理解方法也是一大研發重點。

通過知識關聯跨模態信息，運用語言描述不同模態信息的語義，進而讓機器實現從「看清」到「看懂」、從「聽清」到「聽懂」，即圖像和語言、語音和語言的一體化理解。

而融合場景圖知識的跨模態語義理解預訓練技術，則大幅提升了跨模態推理能力。

而在機器理解自然語言之外，要提升交互體驗，語言生成任務也必不可少。

在這方面，百度基于多流機制的語言生成預訓練技術，在語言生成的過程中，兼顧詞、短語等不同粒度的語義信息，提升了生成效果。

而多文檔摘要生成，則通過圖結構語義表示，引入篇章結構知識，增強長文本語義表示能力的同時，解決了跨文檔領域關系建模難題。

前沿技術落地

正如王海峰所說，對于百度而言，一方面是緊追技術前沿，另一方面是密切關注產業發展。因此無論是技術的研發，還是對ACL這樣的頂會的深度參與，其中都有企業發展、技術布局的考量。

因此學術上的突破，也在不斷轉化為搜索、翻譯、對話系統等各類產品的落地。

比如百度核心業務搜索。

王海峰介紹，通過知識圖譜、語言理解和跨模態語義理解等技術，智能搜索幫助用戶更加高效、精準、便捷地獲取知識和信息。智能搜索再進一步發展，搜索將無處不在。

在對話系統方面，百度提出了知識圖譜驅動的對話控制技術，以及首個基于隱空間的大規模開放域對話模型PLATO等，并推出智能對話定制和服務平臺UNIT，幫助開發者高效構建智能對話系統，實現規模化應用。

機器翻譯方面，基于多智能體聯合學習、基于語義單元的同傳模型、稀缺語種分組混合訓練算法等新技術，現在，百度翻譯能支持200多種語言，每天響應超過千億字符的翻譯請求，支持超過40多萬家第三方應用。

結合語言生成技術和其他語言與知識技術，百度還打造了智能創作平臺，已被20多家媒體所采用，日調用量超過35萬次。

由此也可見百度在語言與知識技術領域開源開放的態度，其十年技術成果，都在源源不斷通過平臺化產品對外輸出，在互聯網、金融、醫療、教育等諸多領域發揮作用。

這樣推動整個產業智能化升級的努力，亦是近十年來百度語言與知識技術不斷進步的最佳證明。

客觀上，百度NLP自十年前開始的長遠布局，確實影響并改變了中國NLP的學術地位、人才和產業格局。

包括王海峰曾擔任首位華人主席的ACL成立亞太分會、ACL落地中國，背后都有百度影響力的體現。

而在人才方面，如今AI語音、語義理解、智能交互的一大批明星公司、實驗室的創始人、骨干，也都先后聚集于此。

那么，在這樣的十年「成績單」之后，下一個十年，百度NLP又會劍指何方？

王海峰說：

復雜知識表示和快速構建技術，知識與深度學習進一步融合，深度融合感知和認知的跨模態語義理解技術，模型可解釋性和魯棒性等等，仍有很多技術難題需要持續研究和解決。

但對于未來，百度充滿信心，堅持「掌握知識、理解語言、擁有智能」，與學術界、產業界攜手，推動語言與知識技術、人工智能技術持續進步，為產業不斷升級、社會經濟高質量發展做出更大貢獻。

5款產品的新發布，服務產業智能化

具體到產品上，在這場峰會中，百度集團副總裁吳甜也在5款語言與知識產品上帶來了百度的最新成果。

一起來看看：

文心(ERNIE)，領先的語義理解技術與平臺

在ERNIE核心技術的基礎上，百度延展開發了語義理解技術與平臺，并取中文名「文心」，意義取自「文心雕龍」。

文心ERNIE這個平臺，旨在提供數據處理、模型訓練、模型評估、模型部署一站式NLP定制能力，讓開發者更簡單、高效地定制NLP模型，以滿足企業智能化轉型過程中，面對的各種機器文本處理需求。

整個過程也簡單高效。會上吳甜以一個情感分析任務為例，演示了平臺使用過程。文心僅用了100條標注數據，準確率就達到了準確率92%。訓練好的模型可以一鍵發布，開發者可通過API服務直接調用。

吳甜表示，文心全面降低了 NLP 定制開發成本，能減少90%的數據標注量，節約90%的算力投入，減少85%的模型開發時長。

文心經過大量真實應用場景淬煉，具備優秀的工業級落地實力。目前，文心廣泛用于百度產品中，累計支持業界開發者超過2萬名，應用于金融、通信、教育、電商等各行業，顯著提升企業NLP應用效果和效率。

TextMind，促進智能辦公升級

針對企業文本智能化的具體場景中，百度此次還全新發布了智能文檔分析平臺TextMind，旨在為企業提供一站式文檔規范化解析方案。

TextMind底層基于OCR、NLP技術，以文檔解析為核心能力，具備文檔比對、審核能力。

舉個例子，在處理合同這樣的重要證明文書時，通過人工智能輔助審核的方式，TextMind可以極大提高合同審核的效率，降低漏審風險。同時，TextMind與知識圖譜能力的結合，能夠發現更多合同中隱含的法律風險。

目前，TextMind支持6種格式，20類文檔。

并且場景預置支持開箱即用，還提供零門檻定制工具。在準確率方面，對于常用解析字段，100%準確；非常用字段，無需標注就可以達到90%準確率。

AI同傳會議解決方案

另外一款全新發布的產品，是AI同傳會議解決方案。

一臺電腦、一部手機，就可以快速搭建一套同傳服務。

并且，這一AI同傳會議解決方案，覆蓋會議全場景，無論線上遠程會議室還是線下會議，無論主題演講還是多人討論，都可以支持。

同時，吳甜還表示，這套方案中使用的AI同傳技術，會同步面向所有開發者開放。

智能創作平臺全新升級

大洋彼岸，微軟已經將MSN和Edge瀏覽器中的新聞推送交給AI來做。

實際上，2019年初，百度早已上線智能創作平臺。平臺不斷豐富輔助創作和自動創作能力，包括圖文轉視頻這樣的「爆款」功能。

這一次，百度智能創作平臺面向媒體行業，推出智能策劃、智能采編和智能審校3大場景方案。

從選題，到文字、視頻生產的采編環節，再到文本、格式校對，全面幫助媒體機構與個人提升創作效率。

UNIT智能對話定制與服務平臺升級

在智能對話方面，百度此次也升級了UNIT智能對話定制與服務平臺，進一步降低任務式對話、智能問答的定制成本，并融合了通用對話能力，以提升交互體驗。

智能客服、小度車載OS、小度DuerOS都是其能力的輸出場景。

為了讓開發者更加高效地獲得高質量的對話理解能力，UNIT本次重點升級了3項技術，并將數據標注成本進一步降低30%以上。

首先，是小樣本意圖理解能力升級。每個意圖提供10個標注樣本，就能達成準確率88%的意圖識別，顯著降低數據標注成本。

基于開發者給定的自定義詞槽值，UNIT能自動為開發者推薦口語化同義詞；基于依存句法分析技術與通用關鍵詞識別技術，還能自動發現修飾關系，降低開發者的分析難度。

其次，是表格問答能力升級。

開發者只需要上傳業務數據表格，后續的所有分析、整理過程均可由UNIT自動完成。

吳甜表示，1分鐘自動分析后，產出的問答機器人已經可以準確回答大部分基于表格的事實型問題；再進行1小時左右的人工調優后，問答機器人達到的水平，相當于以往通過至少2周人工整理FAQ建設的問答系統的水平。

最后，是新一代融合對話引擎。融合業界首個基于隱空間的端到端預訓練對話生成模型PLATO，提升對話內容豐富度和流暢度，提升交互體驗。

以上，就是百度語言與知識技術峰會上發布的新產品與新升級。

由此可見，在語言理解、語言生成、對話、機器翻譯這4個NLP領域的重要方向，百度依托自身在語言與知識技術領域的多年深耕，將核心技術以技術平臺和產品的形式提供給開發者、業務應用者，布局全面，幾乎沒有什么短板。

如此豐富、全面、開放的產品，無疑有助于推動語言與知識技術的落地應用，以及整個語言與知識領域的技術發展。

而能交出這樣一份全能答卷，亦是在深度學習尚未成為顯學之際，以王海峰為首的百度科學家智者見于未萌之功。

產學研共建中文信息處理數據集，還有算力共享計劃

不只是要用核心技術服務于產業發展，在開源方面，百度語言與知識也一直走在產業前沿。

在峰會上，百度聯合中國計算機學會、中國中文信息學會共同發布「千言」數據共建計劃。

百度技術委員會主席吳華表示，語言與知識技術在大規模產業化應用中面臨三個挑戰：模型處理多個子任務的能力、泛化能力，以及模型魯棒性帶來的應用安全和用戶體驗問題。

「千言」作為全球最大的面向NLP的中文開源數據共建項目，正是為了應對這些挑戰、促進中文NLP發展而生。

千言第一期，包括百度在內，有來自11家研究機構、企業的數據集作者進行了共建，包括清華、哈工大、中科院、騰訊、華為、微軟等等。

第一期總共涵蓋7大任務、20多個中文開源數據集合。

任務類型包括開放域對話、閱讀理解、機器同傳、情感分析、語義解析、信息抽取和文本相似度。同時，每個任務都提供了多維度的綜合評價，關注評價模型的全面性、魯棒性和泛化性等。

這一項目計劃在未來3年，面向20多個任務，收集和建設不少于100個中文自然語言處理數據集，以覆蓋知識圖譜、語言理解、語言生成、NLP應用系統、跨模態融合技術等領域。

吳華表示：

未來，我們希望有更多的數據集作者能夠參與共建千言，共同推動中文信息處理技術的進步，建設世界范圍的中文信息處理影響力。

同時，為了應對算力需求的挑戰，百度也正式發布了「百度語言與知識算力助力計劃」，對外開放共享百度算力：

通過AI STUDIO平臺，為語言與知識技術開發者，提供算力支持。

一手推動開源共建，一手發放海量福利，作為十年來語言與知識工業界的領頭羊，百度的雄心，不言而喻。

百度NLP「十年十人」

最后，在峰會上，百度還首次向業內介紹百度語言與知識領域十年里的「代表人物」——百度NLP「十年十人」。

王海峰，百度首席技術官，ACL主席（2013），AACL創始主席，ACL Fellow，中國中文信息學會副理事長。

Kenneth Church，Baidu Research Fellow，ACL 主席（2012），ACL Fellow，EMNLP 創始人。

呂雅娟，百度高級科學家知識圖譜技術負責人、中國計算機學會中文信息技術專委會副主任（2015-2019）。

吳華，百度技術委員會主席，ACL Program Chair（2014）。

黃亮，百度杰出科學家、IDL（美國）主任，ACL Area Chair (2012, 2014, 2018, 2019)。

吳甜，百度集團副總裁。

趙世奇，百度 MEG 用戶產品策略平臺負責人，ACL 秘書長（2016-2020）。

田浩，百度研究院首席架構師。

何中軍，百度人工智能技術委員會主席。

于佃海，百度飛槳平臺總架構師。

均是NLP領域里響亮的名字。

其實，正是像這樣的科學家、從業者的星聚，匯作一團火，讓中國NLP在2010到2020的這個十年中，完成「破圈」，披荊斬棘地走到世界NLP舞臺中央。

而以百度為代表的工業界NLP研發力量，作為NLP十年發展的全程見證者、參與者，也正在用腳踏實地的技術積累、高瞻遠矚的全面布局和開源開放的態度，推動著NLP技術的進步，建設著世界范圍的中文信息處理影響力。

這不只是百度NLP的十年，也是中國NLP的十年。

下一個十年，自然語言處理，將是中文論劍的時代。

你說呢？

— 完 —

NLP 平臺級產品百度算力

魚羊

百度一口氣亮出NLP十年積累：完整技術布局全面披露，面向業界砸下11項七夕大禮

王海峰詳解百度語言與知識完整布局

以知識圖譜為基礎

突破語言理解、語言生成關鍵技術

前沿技術落地

5款產品的新發布，服務產業智能化

文心(ERNIE)，領先的語義理解技術與平臺

TextMind，促進智能辦公升級

AI同傳會議解決方案

智能創作平臺全新升級

UNIT智能對話定制與服務平臺升級

產學研共建中文信息處理數據集，還有算力共享計劃

百度NLP「十年十人」

相關閱讀

百度萬億級圖檢索引擎發布！四大預訓練模型開源，還“發糖”15億元

推特2200贊：一只AI訓練排出180噸二氧化碳，“您的機器學習一點也不環保！”

AI訓練的最大障礙不是算力，而是“內存墻”

北京啟動自動駕駛載人載物測試，百度獲40張載人測試牌照

她是北大“一個人的畢業照”主人公，2010級古生物專業獨苗，十年后搞起了AI

中文預訓練模型ZEN開源，效果領域內最佳，創新工場港科大出品

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

百度一口氣亮出NLP十年積累：完整技術布局全面披露，面向業界砸下11項七夕大禮

王海峰詳解百度語言與知識完整布局

以知識圖譜為基礎

突破語言理解、語言生成關鍵技術

前沿技術落地

5款產品的新發布，服務產業智能化

文心(ERNIE)，領先的語義理解技術與平臺

TextMind，促進智能辦公升級

AI同傳會議解決方案

智能創作平臺全新升級

UNIT智能對話定制與服務平臺升級

產學研共建中文信息處理數據集，還有算力共享計劃

百度NLP「十年十人」

相關閱讀

百度萬億級圖檢索引擎發布！四大預訓練模型開源，還“發糖”15億元

推特2200贊：一只AI訓練排出180噸二氧化碳，“您的機器學習一點也不環保！”

AI訓練的最大障礙不是算力，而是“內存墻”

北京啟動自動駕駛載人載物測試，百度獲40張載人測試牌照

她是北大“一個人的畢業照”主人公，2010級古生物專業獨苗，十年后搞起了AI

中文預訓練模型ZEN開源，效果領域內最佳，創新工場港科大出品

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創 語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式