快手在直播間里養起了AI寵物，連柳巖、大鵬都愛不釋手

郭一璞 2019-11-05 13:44:46 來源：量子位

郭一璞發自凹非寺

量子位報道 | 公眾號 QbitAI

昨天下午，柳巖和大鵬到快手總部“掃樓”，“快手星聞”全程直播。一個吸引人的橙色小精靈，全程活躍在直播頁面上，它就是快手直播間的智能寵物“小快”。

直播過程中，柳巖和大鵬可以隨時和小快聊天，小快還能對兩位演員的新電影侃侃而談，獲得了二人的喜愛。

在直播里加花樣，早就不是什么新鮮事了，各類基于計算機視覺技術的特效、AR效果，已經被直播公司們玩出了花。

但快手這家腦洞大的公司，這次把智能寵物“小快”放進了直播間里，這樣用戶在開直播的同時，就能“使喚”小快完成發紅包、放音樂、講笑話、閑聊等各種功能，幫助主播和觀眾進行互動。

就像舞臺上的演員可以向導播臺喊“music”一樣，小快可以做主播的專屬助理+音響師。

將有語音互動功能的智能寵物引入直播，這還是業內首次。

小快，特別的語音助理

小快本身是快手的吉祥物。在快手的直播頁面中，小快默認出現在屏幕的左側，平時是趴在屏幕邊的狀態，如果你喊“小快小快”召喚它，它就會跑出來，識別你接下來的命令，這樣，在直播的時候，不用伸手點就可以完成各種功能。

小快可以幫你活躍直播現場的氣氛，比如，你可以命令它會放音樂、講笑話、講故事等，甚至還會發快手平臺的虛擬幣“快幣”紅包。

也可以直接讓小快找人連麥或PK，你也可以看到其他用戶的小快。

而對觀眾而言，進入直播間的時候，主播的小快會專門來歡迎你，送禮物之后也有答謝，更有互動的感覺。

此外，快手還為小快開發了養成系統，第一次開直播的用戶完成三個初始任務后，你的小快就會變身為常伴你左右的小寵物。

點擊小快的圖標，屏幕的下半區域就會變成小快的專區，小快會用各種姿態向你問好。

因為小快的形象用到了實時的3D渲染，因此看起來整體效果非常真實，哪怕是復雜的動畫效果，也可以順利切換并呈現在你眼前。

甚至還能選擇它的性別，女生版頭上會多出一朵小花花。

之后，小快進入養成狀態，完成每日任務能為小快賺取飯團，投喂之后小快可以升級，獲得包含各種直播權益的升級禮包，并解鎖更多技能和外形。

開發歷程

或許你會問，開直播，為什么要加入一個語音機器人？

這要從一個過氣網紅提起：夸夸群。

△?快手第二屆黑客馬拉松，夸夸機器人項目在進行demo演示

今年3月，各種各樣的“夸夸群”突然火了起來，你在群里分享自己的各種有趣行為，求夸，網友們就用各種姿勢把你夸上天。

那么，既然能讓網友來夸你，能不能干脆找個AI來變著花樣夸你呢？

于是，在愚人節那天，快手內部的“以AI之名”黑客馬拉松活動中，就出現了一個“夸夸機器人”，產品團隊順勢就把這個機器人延伸成為了語音機器人。

因此現在，如果你對小快說“快夸我”，它也會瘋狂的夸你優秀美麗風趣幽默……

不過，在直播中做語音助手，要比普通的手機語音助手和智能音箱更難，沒有智能音箱那樣專業的硬件，嘈雜的直播環境和有限的計算資源對手機的要求更高。

“小快”語音機器人用到了語音喚醒、語音識別、自然語言理解、對話管理、語音合成等技術，乍一看并不新奇，但當他們被用在手機直播這個場景下，則有更大的難度。

首先，主播需要喊“小快小快”進行語音喚醒，開直播的時候，手機通常離主播1米左右，比手持的距離要遠，不滿足傳統的近場條件，且系統只能拿到單通道數據。

而且，主播使用的手機型號多種多樣，麥克風拾音性能千差萬別，有的主播還會使用具有聲效處理功能的聲卡，小快的語音喚醒必須適配這些復雜條件。

在此同時，手機開著直播，本身就占用了不少計算資源，因此小快機器人不能占用太多的CPU資源，不然會影響直播的清晰度和流暢度。

在這些復雜條件下，快手技術團隊設計了兩階段語音喚醒系統，第一階段采用精簡模型，增加召回率，第二階段采用復雜模型，提高準確率。另外，還需要在回聲消除、模型抗噪方面做了大量算法優化。

喚醒之后的語音識別環節，快手團隊也遇到了難點：中英文混合識別。這一點，在主播點歌的時候是常用功能，比如快手用戶喜歡的《野狼disco》，歌名既有中文又有英文，必須精確的識別出來，既要解決這種中英切換時的協同發音問題，又要解決中英文訓練樣本的不均衡問題。

因此，快手技術團隊采用了基于循環神經網絡的序列建模方法，對中英雙語音節進行建模。音節的發音特征相對穩定，理論上能緩解協同發音的問題，但音節建模增加了發音單元的長度，對模型能力要求更高。還引入了具備下文語境的門控循環單元，有效地解決了中英混合識別的問題。

最后，主播下完命令之后小快要回話，就涉及到了語音合成的問題。

小快的聲音很可愛，活潑而清脆，但如果直接使用業界常用的16kHz采樣率，無法保留這一音色特點。因此，快手技術團隊提出了一種超寬頻帶神經網絡聲碼器，對超寬頻帶也進行了建模。

超寬頻帶的頻譜特征隨機性強，增加了神經網絡的學習難度。并且合成同樣時間長度的音頻信號，需要預測更多的采樣點，這需要模型捕捉更長的序列依賴關系。

為此，快手的算法工程師對神經網絡聲碼器進行了深度優化，在同樣的合成速度條件下，合成音頻具有更高的音質，小快音色明亮清脆的特點得到了較高的還原。

此外，除了語言語音相關技術，小快作為一只3D寵物，也需要視覺上的優化。

因為直播本身就消耗了手機的大量資源，同時還需要渲染3D形象，留給渲染3D形象的資源就非常有限了。

那么，如何利用有限資源，渲染出形象豐富立體、光影效果真實、動作流暢的小快呢？

快手技術團隊優化了美術資源，將包含所有的動作表情、模型和貼圖在內的小快數據包壓縮到了2M左右，并采用資源異步加載來提升效率。為了減少GPU消耗，減少了渲染API調用次數，優化渲染整體邏輯，使用假陰影方案替換實時陰影計算。

另外，考慮到用戶機型不同，許多用戶可能用的是相對低端的手機，快手技術團隊針對不同機型做了性能降級適配、異步加載，不斷調優性能與效果的平衡點，以達到最優效果。

小快背后的團隊

此前業界更熟悉快手的圖像技術團隊，但快手AI語音技術團隊人才積累也不容小覷。

快手的語音技術早有布局，三年前就成立了語音交互、音頻內容理解的技術團隊，成員主要來自清華、中科院、哈工大、西工大的語音實驗室，以及微軟、三星、BAT這些大廠，目前主要技術方向包括語音識別、語音合成、音樂理解與生成、音頻事件檢測等。

這樣專業的人才團隊做了許多業界首創的應用。

比如視頻剪輯應用快影，借助快手自言的語音識別技術，它可以向所有用戶提供免費的視頻自動加字幕功能。

還有快手音悅臺，利用算法從主播的直播過程中自動剪輯、篩選精彩的唱歌片段，制作成為歌唱精選內容，這樣，音樂主播就無需手動整理素材剪輯就有現成可發布的內容，而喜歡音樂的用戶也有了觀看精彩內容的入口。

直播領域一向競爭激烈，小快的出現，想必是對用戶體驗和平臺粘性的進一步提升。

而在快手先行之后，語音機器人或許會是直播界的一股新風潮。

傳送門

最后，小快智能寵物用到的不少技術，快手已經公開發表，為大家傳送論文如下：

The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition

自注意力機制的語音識別

作者：Yuanyuan zhao, Jie Li, Xiaorui Wang, Yan Li

https://ieeexplore.ieee.org/document/8682586

Gated Recurrent Unit Based Acoustic Modeling with Future Context

基于門控循環單元的聲學建模

作者：Jie Li, Xiaorui Wang, Yuanyuan Zhao, Yan Li

https://arxiv.org/abs/1805.07024

Automatic Singing Evaluation without Reference Melody Using Bi-dense Neural Network

使用雙密度神經網絡的無參考旋律的自動歌唱評估

作者：Ning Zhang, Tao Jiang, Feng Deng, Yan Li

https://ieeexplore.ieee.org/document/8682665

郭一璞

快手在直播間里養起了AI寵物，連柳巖、大鵬都愛不釋手

小快，特別的語音助理

開發歷程

小快背后的團隊

傳送門

熱門文章

英偉達巧用8B模型秒掉GPT-5，開源了

SpaceX估值8000億美元超OpenAI，IPO就在明年

Ilya剛預言完，世界首個原生多模態架構NEO就來了：視覺和語言徹底被焊死

跨境電商的疑難雜癥，被1688這個AI全包了…

14歲華人小孩，折個紙成美國天才少年