深探無監督預訓練技術落地 火山語音“算法優化+工程革新”兩手抓
核心思想在于用量化模塊將輸入特征離散化
一直以來,火山語音團隊都為時下風靡的視頻平臺提供基于語音識別技術的智能視頻字幕解決方案,簡單來說就是可以自動將視頻中的語音和歌詞轉化成文字,來輔助視頻創作的功能。但伴隨平臺用戶的快速增長以及對語言種類更加豐富多樣的要求,傳統采用有監督學習技術來解決的辦法日漸遭遇瓶頸,這讓團隊著實犯了難。
眾所周知,傳統的有監督學習會對人工標注的有監督數據產生嚴重依賴,尤其在大語種的持續優化以及小語種的冷啟動方面。以中文普通話和英語這樣的大語種為例,盡管視頻平臺提供了充足的業務場景語音數據,但有監督數據達到一定規模之后,繼續標注的ROI將非常低,必然需要技術人員考慮如何有效利用百萬小時級別的無標注數據,來進一步改善大語種語音識別的效果。
相對小眾的語言或者方言,由于資源、人力等原因,數據的標注成本高昂。在標注數據極少的情況下(10小時量級),有監督訓練的效果非常差,甚至可能無法正常收斂;而采購的數據往往和目標場景不匹配,無法滿足業務的需要。
為此火山語音團隊迫切需要研究如何以盡可能低廉的標注成本充分利用大量的無標注數據,提升少量標注數據下的識別效果并落地到實際業務中,所以無監督預訓練技術成為視頻平臺ASR(Automatic Speech Recognition / 自動語音識別)能力向小語種推廣的關鍵。
盡管近年來學術界在語音無監督預訓練領域取得了許多重大進展,包括Wav2vec2.0 [1]、HuBERT [2]等,但在工業界卻鮮有落地案例可以參考借鑒。整體來看,火山語音團隊認為,以下三方面主要原因,阻礙了無監督預訓練技術的落地:
- 1. 模型參數量大、推理開銷大。大量無標注數據需要用較大的模型做無監督預訓練,才能得到高質量的語音表征,但這樣的模型如果直接部署到線上,會帶來高昂的推理成本。
- 2. 無監督預訓練只關注語音表征的學習,需要結合大量純文本訓練的語言模型聯合解碼才能達到理想效果,和端到端ASR推理引擎不兼容。
- 3. 無監督預訓練開銷大、周期長且不穩定。以Wav2vec2.0為例,300M參數量的模型用64張V100 GPU預訓練60萬步,耗時長達半個月;此外由于數據分布的差異,在業務數據上訓練容易發散。
對此火山語音團隊在基于無監督預訓練的語音識別技術落地過程中,針對以上三大痛點進行了算法改進和工程優化,形成一套完整易推廣的落地方案。本文將針對方案,從落地流程、算法優化以及工程優化等環節展開詳盡介紹。
落地流程
下圖是基于無監督預訓練的低資源語種ASR的落地流程,大致可以劃分為數據收集、種子模型訓練和模型遷移三個階段。
圖1 基于無監督預訓練的ASR落地流程
具體來說,第一階段的數據收集,可以通過語種分流、采購等手段收集目標語言的無標注語音、標注語音和純文本數據。
第二階段的種子模型訓練,也就是經典的“無監督預訓練+有監督微調”過程。這一階段將得到一個聲學模型,通常基于連接時序分類(Connectionist Temporal Classification, CTC [3])損失函數微調。聲學模型結合純文本訓練的語言模型,構成一個完整的語音識別系統,可以取得不錯的識別效果。之所以稱之為種子模型,是因為這個模型并不適合直接上線到業務,我們更傾向于使用LAS(Listen, Attend and Spell [4])或RNN-T(Recurrent Neural Network Transducer [5])這類端到端模型進行線上部署。
歸其原因,主要是LAS/RNN-T具有出色的端到端建模能力,同時在近年來已經取得了優于傳統CTC模型的效果,并在工業界得到越來越多的應用。火山語音團隊針對端到端語音識別模型的推理和部署做了大量優化工作,已形成一套相對成熟的方案,并支持眾多業務。在維持效果無損的前提下,如果可以沿用端到端推理引擎,就能大幅降低引擎的運維成本。
基于此團隊設計了第三階段,即模型遷移階段。主要借鑒知識蒸餾的思想,用種子模型對無標注數據打偽標簽,然后提供一個參數量較小的LAS模型做訓練,同步實現了模型結構的遷移和推理計算量的壓縮。整個流程的有效性在粵語ASR上得到驗證,具體實驗結果如下表所示:
首先,團隊采購了1kh成品數據用于實驗對比,直接訓練LAS模型性能不佳,字錯率(Character Error Rate, CER)高達44.2%。經過分析,火山語音認為主要原因是采購數據(對話)和業務測試集(視頻)領域不匹配,在wav2vec2.0上的初步實驗也發現了類似的現象。
相比用采購數據做預訓練,采用和目標領域一致的數據做預訓練,在業務測試集上的CER可以從42.0%下降到29.4%,于是團隊將業務場景的無標注數據積累到50kh,模型參數量從100M增加到300M,CER進一步下降到23.1%。
最后團隊驗證了模型遷移的效果,結合粵語語言模型對50kh無標注數據解碼得到偽標簽,訓練LAS模型。可以看到,基于偽標簽訓練的LAS模型基本可以保持CTC種子模型的識別效果且模型參數量減少了三分之一,可以直接基于成熟的端到端推理引擎部署上線。
圖2 模型參數量和CER對比
最終在模型結構和參數量不變的前提下,團隊用50kh無標注業務數據和10h有標注業務數據取得了23.0%的CER,相對基線模型下降48%。解決了線上計算量和兼容性的問題之后,聚焦到整個流程中最為核心的無監督預訓練技術,針對wav2vec2.0,火山語音團隊分別從算法和工程兩個維度進行了優化。
算法優化
wav2vec2.0作為Meta AI在2020年提出來的自監督預訓練模型,開啟了語音無監督表征學習的新篇章。其核心思想在于用量化模塊將輸入特征離散化,并通過對比學習優化,模型主體與BERT類似,隨機mask部分輸入特征。
- 九章云極獨攬量子位三項大獎:以“一度算力”重構AI基礎設施云格局2025-12-10
- 視頻理解霸榜!快手Keye-VL旗艦模型重磅開源,多模態視頻感知領頭羊2025-11-28
- 中國唯一!阿里千問斬獲全球AI頂會最佳論文2025-11-28
- 第19屆中國投資年會·有限合伙人峰會在滬成功舉辦2025-11-28




