速度提升17.5倍!百度提出語音合成新模型,完全并行的TTS系統(tǒng)
這是一個完全卷積的結構,可將文本轉換成梅爾頻譜圖
銅靈 發(fā)自 凹非寺
量子位 出品 | 公眾號 QbitAI
文字轉語音(TTS)領域又有了新進展。
這一次,百度提出了一種非自回歸序列到序列的模型ParaNet,引入了一個完全并行的神經(jīng)TTS系統(tǒng),將文本轉換成光譜圖。
和此前百度提出的實時語音合成系統(tǒng)Deep Voice 3相比,ParaNet可在保證準確率相當?shù)那闆r下,將速度提升到17.5倍。
這是如何做到的?
雙刃的自回歸特性
文字轉語音(TTS)也稱為語音合成,目前已經(jīng)在人機交互、虛擬助手和內(nèi)容創(chuàng)造等方面廣泛應用了。
傳統(tǒng)的TTS系統(tǒng)基于多級人工調(diào)配(hand-engineered),依賴此特征作為輸入或進行預訓練。
在這種方法中,基于自回歸的深度神經(jīng)網(wǎng)絡模型已經(jīng)取得了比較先進的研究,包括高保真度的音頻合成、更簡單的序列到序列(seq2seq)的pipeline。
其中,最流行的神經(jīng)TTS pipeline通常包含兩部分:
一是自回歸seq2seq模型,從文本中生成梅爾光譜圖;
二是自回歸神經(jīng)聲碼器(比如WaveNet),能夠從梅爾光譜圖中生成原始波形。
這種pipeline對專業(yè)知識深度的要求變少了,只需要成對的音頻和評分,用于訓練數(shù)據(jù)。
然而,這種模型的自回歸特性也讓合成速度變得很慢,因為它們以高時間分辨率連續(xù)運行波形樣本或聲學特征。
針對這個問題,也有不少研究在對其進行改進,比如谷歌的并行WaveNet(parallel WaveNet)和百度ClariNet,已經(jīng)提出了并行波形合成的方法,但仍然依賴與自回歸或遞歸組件生成音頻幀級別的特征。
也就是說,此前的所有研究在為并行研究優(yōu)化的現(xiàn)代硬件上,綜合速度都有很大的提升空間。
在論文Parallel Neural Text-to-Speech中,百度研究院的研究人員提出的非自回歸的文本-圖譜模型ParaNet,引入了一個完全并行的神經(jīng)TTS系統(tǒng),想解決速度的問題。
在上面這張圖中,a圖為自回歸seq2seq模型,虛線表示了推理過程中自回歸解碼的梅爾頻譜圖,b圖為非自回歸ParaNet模型,它從預先訓練好的自回歸模型中提取注意力。
ParaNet是首個非自回歸基于注意力架構的TTS模型,這是一個完全卷積的結構,可將文本轉換成梅爾頻譜圖。
ParaNet的架構如下圖所示:
可以看出,其編碼器提供了(key,value)作為文本表示。解碼器中的第一個注意塊獲取位置編碼作為查詢指令,然后是非因果(non-causal)卷積塊和注意塊。
此外,研究人員通過應用逆向自回歸流(inverse autoregressive flow ,IAF)作為并行神經(jīng)聲碼器。它可以通過單一前向反饋從文本合成語音。
研究人員用不同的方法評估了ParaNet的語音合成效果。
結果顯示,ParaNet在語音合成的速度上,比百度此前的Deep Voice 3架構提升了17.5倍,將運行50次的平均推理延遲從1.418秒降低到0.081秒。
并且,在合成語音的質量上,兩種方法基本持平。
此外,研究人員發(fā)現(xiàn),在給出100句測試集上測試文本到光譜模型的注意力誤差時還發(fā)現(xiàn),具有注意力mask的非自回歸ParaNet在合成過程中的誤差最小。
華人團隊
這篇論文來自百度研究院,參與其中的四位共同一作均為華人。
作者之一的Kainan Peng,其Linkedin資料顯示,自2015年從北京理工大學畢業(yè)后,Kainan繼而去CMU攻讀了電氣與計算機工程的碩士。
2017年,Kainan入職了百度,參與了多篇頂會論文的研究,包括NIPS spotlight 2017的Deep Voice 2、被ICLR2018接收的Deep Voice 3、NIPS spotlight 2018論文Voice Cloning和ICLR 2019接收的研究ClariNet。
另一位作者Wei Ping是百度硅谷研究院的高級研究員。Wei Ping的履歷同樣閃閃發(fā)光,哈工大計算機科學本科、清華碩士、加州大學的博士。畢業(yè)后,Wei Ping在微軟、加州大學就職過。
加入百度不到一年的時間以來,Wei Ping主導了百度基于WaveNet的并行音頻波形生成模型ClariNet。
此外,百度研究院的Zhao Song和Kexin Zhao也參與了這項研究。
傳送門
論文地址:
https://128.84.21.199/abs/1905.08459
項目主頁:
https://parallel-neural-tts-demo.github.io/
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節(jié),請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?’?’ ? 追蹤AI技術和產(chǎn)品新動態(tài)
- 微軟公布19財年財報:凈利潤增長22%,云計算首超個人計算業(yè)務2019-07-19
- 騰訊云推出物聯(lián)網(wǎng)邊緣計算平臺,具備五大特點,想攻克物聯(lián)網(wǎng)落地難題2019-08-28
- DeepMind醫(yī)療業(yè)務幾經(jīng)動蕩,現(xiàn)在團隊并入Google2019-09-20
- 首例基因編輯干細胞治療艾滋病:北大鄧宏魁參與,達最佳治療效果2019-09-14




