快手在直播間里養起了AI寵物,連柳巖、大鵬都愛不釋手
郭一璞 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
昨天下午,柳巖和大鵬到快手總部“掃樓”,“快手星聞”全程直播。一個吸引人的橙色小精靈,全程活躍在直播頁面上,它就是快手直播間的智能寵物“小快”。
直播過程中,柳巖和大鵬可以隨時和小快聊天,小快還能對兩位演員的新電影侃侃而談,獲得了二人的喜愛。
在直播里加花樣,早就不是什么新鮮事了,各類基于計算機視覺技術的特效、AR效果,已經被直播公司們玩出了花。
但快手這家腦洞大的公司,這次把智能寵物“小快”放進了直播間里,這樣用戶在開直播的同時,就能“使喚”小快完成發紅包、放音樂、講笑話、閑聊等各種功能,幫助主播和觀眾進行互動。
就像舞臺上的演員可以向導播臺喊“music”一樣,小快可以做主播的專屬助理+音響師。
將有語音互動功能的智能寵物引入直播,這還是業內首次。
小快,特別的語音助理
小快本身是快手的吉祥物。在快手的直播頁面中,小快默認出現在屏幕的左側,平時是趴在屏幕邊的狀態,如果你喊“小快小快”召喚它,它就會跑出來,識別你接下來的命令,這樣,在直播的時候,不用伸手點就可以完成各種功能。
小快可以幫你活躍直播現場的氣氛,比如,你可以命令它會放音樂、講笑話、講故事等,甚至還會發快手平臺的虛擬幣“快幣”紅包。
也可以直接讓小快找人連麥或PK,你也可以看到其他用戶的小快。
而對觀眾而言,進入直播間的時候,主播的小快會專門來歡迎你,送禮物之后也有答謝,更有互動的感覺。
此外,快手還為小快開發了養成系統,第一次開直播的用戶完成三個初始任務后,你的小快就會變身為常伴你左右的小寵物。
點擊小快的圖標,屏幕的下半區域就會變成小快的專區,小快會用各種姿態向你問好。
因為小快的形象用到了實時的3D渲染,因此看起來整體效果非常真實,哪怕是復雜的動畫效果,也可以順利切換并呈現在你眼前。
甚至還能選擇它的性別,女生版頭上會多出一朵小花花。
之后,小快進入養成狀態,完成每日任務能為小快賺取飯團,投喂之后小快可以升級,獲得包含各種直播權益的升級禮包,并解鎖更多技能和外形。
開發歷程
或許你會問,開直播,為什么要加入一個語音機器人?
這要從一個過氣網紅提起:夸夸群。
△?快手第二屆黑客馬拉松,夸夸機器人項目在進行demo演示
今年3月,各種各樣的“夸夸群”突然火了起來,你在群里分享自己的各種有趣行為,求夸,網友們就用各種姿勢把你夸上天。
那么,既然能讓網友來夸你,能不能干脆找個AI來變著花樣夸你呢?
于是,在愚人節那天,快手內部的“以AI之名”黑客馬拉松活動中,就出現了一個“夸夸機器人”,產品團隊順勢就把這個機器人延伸成為了語音機器人。
因此現在,如果你對小快說“快夸我”,它也會瘋狂的夸你優秀美麗風趣幽默……
不過,在直播中做語音助手,要比普通的手機語音助手和智能音箱更難,沒有智能音箱那樣專業的硬件,嘈雜的直播環境和有限的計算資源對手機的要求更高。
“小快”語音機器人用到了語音喚醒、語音識別、自然語言理解、對話管理、語音合成等技術,乍一看并不新奇,但當他們被用在手機直播這個場景下,則有更大的難度。
首先,主播需要喊“小快小快”進行語音喚醒,開直播的時候,手機通常離主播1米左右,比手持的距離要遠,不滿足傳統的近場條件,且系統只能拿到單通道數據。
而且,主播使用的手機型號多種多樣,麥克風拾音性能千差萬別,有的主播還會使用具有聲效處理功能的聲卡,小快的語音喚醒必須適配這些復雜條件。
在此同時,手機開著直播,本身就占用了不少計算資源,因此小快機器人不能占用太多的CPU資源,不然會影響直播的清晰度和流暢度。
在這些復雜條件下,快手技術團隊設計了兩階段語音喚醒系統,第一階段采用精簡模型,增加召回率,第二階段采用復雜模型,提高準確率。另外,還需要在回聲消除、模型抗噪方面做了大量算法優化。
喚醒之后的語音識別環節,快手團隊也遇到了難點:中英文混合識別。這一點,在主播點歌的時候是常用功能,比如快手用戶喜歡的《野狼disco》,歌名既有中文又有英文,必須精確的識別出來,既要解決這種中英切換時的協同發音問題,又要解決中英文訓練樣本的不均衡問題。
因此,快手技術團隊采用了基于循環神經網絡的序列建模方法,對中英雙語音節進行建模。音節的發音特征相對穩定,理論上能緩解協同發音的問題,但音節建模增加了發音單元的長度,對模型能力要求更高。還引入了具備下文語境的門控循環單元,有效地解決了中英混合識別的問題。
最后,主播下完命令之后小快要回話,就涉及到了語音合成的問題。
小快的聲音很可愛,活潑而清脆,但如果直接使用業界常用的16kHz采樣率,無法保留這一音色特點。因此,快手技術團隊提出了一種超寬頻帶神經網絡聲碼器,對超寬頻帶也進行了建模。
超寬頻帶的頻譜特征隨機性強,增加了神經網絡的學習難度。并且合成同樣時間長度的音頻信號,需要預測更多的采樣點,這需要模型捕捉更長的序列依賴關系。
為此,快手的算法工程師對神經網絡聲碼器進行了深度優化,在同樣的合成速度條件下,合成音頻具有更高的音質,小快音色明亮清脆的特點得到了較高的還原。
此外,除了語言語音相關技術,小快作為一只3D寵物,也需要視覺上的優化。
因為直播本身就消耗了手機的大量資源,同時還需要渲染3D形象,留給渲染3D形象的資源就非常有限了。
那么,如何利用有限資源,渲染出形象豐富立體、光影效果真實、動作流暢的小快呢?
快手技術團隊優化了美術資源,將包含所有的動作表情、模型和貼圖在內的小快數據包壓縮到了2M左右,并采用資源異步加載來提升效率。為了減少GPU消耗,減少了渲染API調用次數,優化渲染整體邏輯,使用假陰影方案替換實時陰影計算。
另外,考慮到用戶機型不同,許多用戶可能用的是相對低端的手機,快手技術團隊針對不同機型做了性能降級適配、異步加載,不斷調優性能與效果的平衡點,以達到最優效果。
小快背后的團隊
此前業界更熟悉快手的圖像技術團隊,但快手AI語音技術團隊人才積累也不容小覷。
快手的語音技術早有布局,三年前就成立了語音交互、音頻內容理解的技術團隊,成員主要來自清華、中科院、哈工大、西工大的語音實驗室,以及微軟、三星、BAT這些大廠,目前主要技術方向包括語音識別、語音合成、音樂理解與生成、音頻事件檢測等。
這樣專業的人才團隊做了許多業界首創的應用。
比如視頻剪輯應用快影,借助快手自言的語音識別技術,它可以向所有用戶提供免費的視頻自動加字幕功能。
還有快手音悅臺,利用算法從主播的直播過程中自動剪輯、篩選精彩的唱歌片段,制作成為歌唱精選內容,這樣,音樂主播就無需手動整理素材剪輯就有現成可發布的內容,而喜歡音樂的用戶也有了觀看精彩內容的入口。
直播領域一向競爭激烈,小快的出現,想必是對用戶體驗和平臺粘性的進一步提升。
而在快手先行之后,語音機器人或許會是直播界的一股新風潮。
傳送門
最后,小快智能寵物用到的不少技術,快手已經公開發表,為大家傳送論文如下:
The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition
自注意力機制的語音識別
作者:Yuanyuan zhao, Jie Li, Xiaorui Wang, Yan Li
https://ieeexplore.ieee.org/document/8682586
Gated Recurrent Unit Based Acoustic Modeling with Future Context
基于門控循環單元的聲學建模
作者:Jie Li, Xiaorui Wang, Yuanyuan Zhao, Yan Li
https://arxiv.org/abs/1805.07024
Automatic Singing Evaluation without Reference Melody Using Bi-dense Neural Network
使用雙密度神經網絡的無參考旋律的自動歌唱評估
作者:Ning Zhang, Tao Jiang, Feng Deng, Yan Li
https://ieeexplore.ieee.org/document/8682665
- MEET2020 | 百度景鯤:AI交互正在吃掉舊產品邊界,觸達移動互聯網盲區用戶2019-12-10
- MEET2020 | 王硯峰揭秘搜狗AI技術體系:自然交互在左,知識計算在右,核心是語言2019-12-16
- MEET2020 | 曠視唐文斌:你到底給誰創造了什么樣的價值?這是AI產品的靈魂拷問2019-12-17
- MEET2020 | 快手劉霽:AI基礎能力決定每個公司AI的迭代和落地效率2019-12-20




