調戲微軟文言文AI翻譯：“永不舍汝”、“其母之”是什么鬼？？？

夢晨 2021-08-31 13:54:35 來源：量子位

微軟亞洲研究院出品

夢晨蕭簫發自凹非寺
量子位報道 | 公眾號 QbitAI

聽說微軟搞了個AI翻譯文言文？

趕緊來試試，先來一段《曹劌論戰》的開頭：

我震驚了，居然能把“我”翻譯成“魯國”，“公”翻譯成“魯莊公”。

難道AI除了學習文言文詞匯和語法，還熟讀了《左傳》？

換成詩表現又將如何？

雖然翻譯出來不是很有文學性，但AI正確理解到了“望著同一個月亮”這層意思。

嚯，這個翻譯極大地引起了我的興趣。

如果百度和微軟一起上考場

既然翻譯出正確詞意不是太難，那文言文中的特殊語法AI能否掌握？

為了更好地評估微軟翻譯的能力，這里請出老牌選手百度翻譯，讓它們比試一下。

第一題：秦時明月漢時關

這里考點是互文的修辭方法，應該理解成秦漢時期的明月、秦漢時期的關口。

百度的答案是：

看來百度沒理解到位，再看看微軟的答案：

微軟正確理解了互文，率先拿下1分。

第二題：春風又綠江南岸

這句的考點是詞類活用，綠本來是個形容詞，在這里用作動詞。

還是百度先來：

沒問題，接下來是微軟：

等一下，雖然綠用作動詞翻譯對了，可是后面怎么多了一個“可是”？

難道……把后半句詩也輸進去試試：

果然如此，看來微軟翻譯在用整句進行訓練的時候掌握了句與句之間的轉折關系，后來不知怎么又算到前半句里了。

這次百度扳回一局，1:1平。

最后一題考驗一下文言文中的另一個常見語法現象——倒裝

比如《鄒忌諷齊王納諫》中的“我孰與城北徐公美？”

按慣例百度先：

然后是微軟：

看來兩個AI都學會了倒裝句的用法，最終結果2:2平，各有千秋。

微軟翻譯雖然多學會了一個互文，但畢竟還是年輕選手，對句子之間關系的處理需要再練習。

接下來挑戰一下微軟文言文翻譯的極限。

比如維基百科其實就有個文言文版叫維基大典，里面剛好有微軟的詞條。

來試試讓微軟AI翻譯一下自己公司的介紹：

看起來現代的偽文言文對于這個剛出生的小AI來說還是太苛刻了。

雖然也特別訓練了“微軟”和“電腦”這種現代才出現的名詞，但遇到“一九七五年”這種古代不用的表達就不行了，前老板比爾蓋茨的名字也沒認出來。

“立之者”這里還按古文的語境腦補出一個“國君”，可能這就是過擬合吧。

說到現代的表達方式，其實這個翻譯工具還可以倒過來用，把白話文譯成文言文。

比如諸葛丞相那句“我從未見過有如此厚顏無恥之人！”要是用文言文說出來是不是就更對味了？

那么，這樣的模型是怎么“煉成”的呢？

Transformer加成，專攻訓練數據

用AI搞文言文翻譯，確實不是頭一回見。

百度是最早用機器學習做文言文翻譯的，還申請過相關專利：「一種在白話文與文言文之間進行文體轉換的方法和設備」。

相關文言文翻譯的模型也不少，從機器學習、RNN到Transformer都有，像微軟這次采用的，就是Transformer模型：

△圖源：微軟研究院AI頭條

不過，文言文翻譯中的訓練數據，卻一直是個難點。

相比于其他主流語言（中文現代文、英文等），文言文可以說是訓練數據極少，同時還存在句式變換、繁簡混合等問題，造成翻譯的生硬。

這次微軟的文言文翻譯，主要就解決了四個方面的數據問題：

其一，針對數據量不足，利用相同字詞進行數據合成和增強。文言文和現代文有一些相同含義的字詞，如果對這些詞語進行召回、對齊，再擴展到短詞短句，就能合成大量可用的訓練數據。
其二，針對句式變換不靈活，對數據格式進行變形，提升魯棒性。文言文斷句和現代文不太一樣，為此研究人員通過數據格式變形，來擴大訓練數據量，讓模型也學會翻譯類似語句。
其三，針對字體識別不力，用簡繁混合數據訓練，提升模型識別能力。為了讓機器學習能同時識別簡繁混合的文言文，研究人員在訓練模型時會將簡體中文和繁體中文數據混合在一起進行訓練，確保翻譯模型不出錯。
其四，針對現代文的“新詞”，專門建立相關數據集和識別模型，確保不“亂翻譯”。為了避免模型在遇到現代文中的“高鐵、電腦、互聯網”這種詞時出現混亂（例如將高鐵翻譯成高處的鐵塊），研究人員建了一個模型，專門用來識別這些新詞。除了新詞，也針對博客、論壇、微博等新文體進行訓練。

然而這都還只是文言文和中文之間的互譯，整點英文試試？

英譯中，bug藏不住了

這次微軟的文言文翻譯是直接整合到了Bing翻譯里，難道還可以把文言文翻譯成外語？

先挑戰一下單個的英文句子：

Never gonna give you up

看來簡單句沒有難倒AI，我們提升一下難度，用一首比較著名的英文詩「當你老了」試試：

等等，“灰暗”、“陰景深”、“彎下腰在酒邊”……這都是什么鬼？

簡單的句子似乎還好，然而一到長句子，怎么就翻譯成這樣了？

不過，微軟也說過，這次主要實現的是文言文和現代文互譯，說明其他語言在翻譯成文言文之前，應該也需要先翻譯成現代文。

那來看看微軟的英譯中效果怎么樣：

破案了，微軟的英譯中確實不太行……可能也是導致英文翻譯成文言文出現失誤的原因。

相比之下，從文言文翻譯現代文、再翻譯到中文的效果要稍微好一點。

順帶一提，雖然正經的英文字句翻譯得不太行，不過在這種字詞的翻譯上……竟然還有點文藝？

看來以后可以和翻譯模型學習如何優雅地罵人了。（手動狗頭）

如果大家還調戲出了什么好玩的翻譯，歡迎留言~

微軟文言文翻譯地址：
https://cn.bing.com/translator

參考鏈接：
[1]https://weibo.com/msra?profile_ftype=1&is_all=1#1630370728811
[2]https://mp.weixin.qq.com/s/5cpBuUXfeb0r13JSyNuS_Q

微軟亞洲研究院機器翻譯

夢晨

調戲微軟文言文AI翻譯：“永不舍汝”、“其母之”是什么鬼？？？

如果百度和微軟一起上考場

Transformer加成，專攻訓練數據

英譯中，bug藏不住了

相關閱讀

Meta發布支持128種語言的新語音模型：指向元宇宙跨語種交流，可在線試玩

MSRA院長周禮棟升任微軟全球資深副總裁，20年前加入微軟，畢業于復旦

微信翻譯，快把上海老外搞瘋了

微軟亞研院新作：讓大模型一口氣調用數百萬個API！

微信翻譯在WMT 2022斬獲3項第一，相關能力已落地應用于業務場景

一個模型通殺8大視覺任務，一句話生成圖像、視頻、P圖、視頻處理...都能行

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

調戲微軟文言文AI翻譯：“永不舍汝”、“其母之”是什么鬼？？？

如果百度和微軟一起上考場

Transformer加成，專攻訓練數據

英譯中，bug藏不住了

相關閱讀

Meta發布支持128種語言的新語音模型：指向元宇宙跨語種交流，可在線試玩

MSRA院長周禮棟升任微軟全球資深副總裁，20年前加入微軟，畢業于復旦

微信翻譯，快把上海老外搞瘋了

微軟亞研院新作：讓大模型一口氣調用數百萬個API！

微信翻譯在WMT 2022斬獲3項第一，相關能力已落地應用于業務場景

一個模型通殺8大視覺任務，一句話生成圖像、視頻、P圖、視頻處理...都能行

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創 語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式