快手在直播間里養(yǎng)起了AI寵物,連柳巖、大鵬都愛不釋手
郭一璞 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
昨天下午,柳巖和大鵬到快手總部“掃樓”,“快手星聞”全程直播。一個吸引人的橙色小精靈,全程活躍在直播頁面上,它就是快手直播間的智能寵物“小快”。
直播過程中,柳巖和大鵬可以隨時和小快聊天,小快還能對兩位演員的新電影侃侃而談,獲得了二人的喜愛。
在直播里加花樣,早就不是什么新鮮事了,各類基于計算機視覺技術(shù)的特效、AR效果,已經(jīng)被直播公司們玩出了花。
但快手這家腦洞大的公司,這次把智能寵物“小快”放進了直播間里,這樣用戶在開直播的同時,就能“使喚”小快完成發(fā)紅包、放音樂、講笑話、閑聊等各種功能,幫助主播和觀眾進行互動。
就像舞臺上的演員可以向?qū)Рヅ_喊“music”一樣,小快可以做主播的專屬助理+音響師。
將有語音互動功能的智能寵物引入直播,這還是業(yè)內(nèi)首次。
小快,特別的語音助理
小快本身是快手的吉祥物。在快手的直播頁面中,小快默認出現(xiàn)在屏幕的左側(cè),平時是趴在屏幕邊的狀態(tài),如果你喊“小快小快”召喚它,它就會跑出來,識別你接下來的命令,這樣,在直播的時候,不用伸手點就可以完成各種功能。
小快可以幫你活躍直播現(xiàn)場的氣氛,比如,你可以命令它會放音樂、講笑話、講故事等,甚至還會發(fā)快手平臺的虛擬幣“快幣”紅包。
也可以直接讓小快找人連麥或PK,你也可以看到其他用戶的小快。
而對觀眾而言,進入直播間的時候,主播的小快會專門來歡迎你,送禮物之后也有答謝,更有互動的感覺。
此外,快手還為小快開發(fā)了養(yǎng)成系統(tǒng),第一次開直播的用戶完成三個初始任務(wù)后,你的小快就會變身為常伴你左右的小寵物。
點擊小快的圖標(biāo),屏幕的下半?yún)^(qū)域就會變成小快的專區(qū),小快會用各種姿態(tài)向你問好。
因為小快的形象用到了實時的3D渲染,因此看起來整體效果非常真實,哪怕是復(fù)雜的動畫效果,也可以順利切換并呈現(xiàn)在你眼前。
甚至還能選擇它的性別,女生版頭上會多出一朵小花花。
之后,小快進入養(yǎng)成狀態(tài),完成每日任務(wù)能為小快賺取飯團,投喂之后小快可以升級,獲得包含各種直播權(quán)益的升級禮包,并解鎖更多技能和外形。
開發(fā)歷程
或許你會問,開直播,為什么要加入一個語音機器人?
這要從一個過氣網(wǎng)紅提起:夸夸群。
△?快手第二屆黑客馬拉松,夸夸機器人項目在進行demo演示
今年3月,各種各樣的“夸夸群”突然火了起來,你在群里分享自己的各種有趣行為,求夸,網(wǎng)友們就用各種姿勢把你夸上天。
那么,既然能讓網(wǎng)友來夸你,能不能干脆找個AI來變著花樣夸你呢?
于是,在愚人節(jié)那天,快手內(nèi)部的“以AI之名”黑客馬拉松活動中,就出現(xiàn)了一個“夸夸機器人”,產(chǎn)品團隊順勢就把這個機器人延伸成為了語音機器人。
因此現(xiàn)在,如果你對小快說“快夸我”,它也會瘋狂的夸你優(yōu)秀美麗風(fēng)趣幽默……
不過,在直播中做語音助手,要比普通的手機語音助手和智能音箱更難,沒有智能音箱那樣專業(yè)的硬件,嘈雜的直播環(huán)境和有限的計算資源對手機的要求更高。
“小快”語音機器人用到了語音喚醒、語音識別、自然語言理解、對話管理、語音合成等技術(shù),乍一看并不新奇,但當(dāng)他們被用在手機直播這個場景下,則有更大的難度。
首先,主播需要喊“小快小快”進行語音喚醒,開直播的時候,手機通常離主播1米左右,比手持的距離要遠,不滿足傳統(tǒng)的近場條件,且系統(tǒng)只能拿到單通道數(shù)據(jù)。
而且,主播使用的手機型號多種多樣,麥克風(fēng)拾音性能千差萬別,有的主播還會使用具有聲效處理功能的聲卡,小快的語音喚醒必須適配這些復(fù)雜條件。
在此同時,手機開著直播,本身就占用了不少計算資源,因此小快機器人不能占用太多的CPU資源,不然會影響直播的清晰度和流暢度。
在這些復(fù)雜條件下,快手技術(shù)團隊設(shè)計了兩階段語音喚醒系統(tǒng),第一階段采用精簡模型,增加召回率,第二階段采用復(fù)雜模型,提高準(zhǔn)確率。另外,還需要在回聲消除、模型抗噪方面做了大量算法優(yōu)化。
喚醒之后的語音識別環(huán)節(jié),快手團隊也遇到了難點:中英文混合識別。這一點,在主播點歌的時候是常用功能,比如快手用戶喜歡的《野狼disco》,歌名既有中文又有英文,必須精確的識別出來,既要解決這種中英切換時的協(xié)同發(fā)音問題,又要解決中英文訓(xùn)練樣本的不均衡問題。
因此,快手技術(shù)團隊采用了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列建模方法,對中英雙語音節(jié)進行建模。音節(jié)的發(fā)音特征相對穩(wěn)定,理論上能緩解協(xié)同發(fā)音的問題,但音節(jié)建模增加了發(fā)音單元的長度,對模型能力要求更高。還引入了具備下文語境的門控循環(huán)單元,有效地解決了中英混合識別的問題。
最后,主播下完命令之后小快要回話,就涉及到了語音合成的問題。
小快的聲音很可愛,活潑而清脆,但如果直接使用業(yè)界常用的16kHz采樣率,無法保留這一音色特點。因此,快手技術(shù)團隊提出了一種超寬頻帶神經(jīng)網(wǎng)絡(luò)聲碼器,對超寬頻帶也進行了建模。
超寬頻帶的頻譜特征隨機性強,增加了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)難度。并且合成同樣時間長度的音頻信號,需要預(yù)測更多的采樣點,這需要模型捕捉更長的序列依賴關(guān)系。
為此,快手的算法工程師對神經(jīng)網(wǎng)絡(luò)聲碼器進行了深度優(yōu)化,在同樣的合成速度條件下,合成音頻具有更高的音質(zhì),小快音色明亮清脆的特點得到了較高的還原。
此外,除了語言語音相關(guān)技術(shù),小快作為一只3D寵物,也需要視覺上的優(yōu)化。
因為直播本身就消耗了手機的大量資源,同時還需要渲染3D形象,留給渲染3D形象的資源就非常有限了。
那么,如何利用有限資源,渲染出形象豐富立體、光影效果真實、動作流暢的小快呢?
快手技術(shù)團隊優(yōu)化了美術(shù)資源,將包含所有的動作表情、模型和貼圖在內(nèi)的小快數(shù)據(jù)包壓縮到了2M左右,并采用資源異步加載來提升效率。為了減少GPU消耗,減少了渲染API調(diào)用次數(shù),優(yōu)化渲染整體邏輯,使用假陰影方案替換實時陰影計算。
另外,考慮到用戶機型不同,許多用戶可能用的是相對低端的手機,快手技術(shù)團隊針對不同機型做了性能降級適配、異步加載,不斷調(diào)優(yōu)性能與效果的平衡點,以達到最優(yōu)效果。
小快背后的團隊
此前業(yè)界更熟悉快手的圖像技術(shù)團隊,但快手AI語音技術(shù)團隊人才積累也不容小覷。
快手的語音技術(shù)早有布局,三年前就成立了語音交互、音頻內(nèi)容理解的技術(shù)團隊,成員主要來自清華、中科院、哈工大、西工大的語音實驗室,以及微軟、三星、BAT這些大廠,目前主要技術(shù)方向包括語音識別、語音合成、音樂理解與生成、音頻事件檢測等。
這樣專業(yè)的人才團隊做了許多業(yè)界首創(chuàng)的應(yīng)用。
比如視頻剪輯應(yīng)用快影,借助快手自言的語音識別技術(shù),它可以向所有用戶提供免費的視頻自動加字幕功能。
還有快手音悅臺,利用算法從主播的直播過程中自動剪輯、篩選精彩的唱歌片段,制作成為歌唱精選內(nèi)容,這樣,音樂主播就無需手動整理素材剪輯就有現(xiàn)成可發(fā)布的內(nèi)容,而喜歡音樂的用戶也有了觀看精彩內(nèi)容的入口。
直播領(lǐng)域一向競爭激烈,小快的出現(xiàn),想必是對用戶體驗和平臺粘性的進一步提升。
而在快手先行之后,語音機器人或許會是直播界的一股新風(fēng)潮。
傳送門
最后,小快智能寵物用到的不少技術(shù),快手已經(jīng)公開發(fā)表,為大家傳送論文如下:
The Speechtransformer for Large-scale Mandarin Chinese Speech Recognition
自注意力機制的語音識別
作者:Yuanyuan zhao, Jie Li, Xiaorui Wang, Yan Li
https://ieeexplore.ieee.org/document/8682586
Gated Recurrent Unit Based Acoustic Modeling with Future Context
基于門控循環(huán)單元的聲學(xué)建模
作者:Jie Li, Xiaorui Wang, Yuanyuan Zhao, Yan Li
https://arxiv.org/abs/1805.07024
Automatic Singing Evaluation without Reference Melody Using Bi-dense Neural Network
使用雙密度神經(jīng)網(wǎng)絡(luò)的無參考旋律的自動歌唱評估
作者:Ning Zhang, Tao Jiang, Feng Deng, Yan Li
https://ieeexplore.ieee.org/document/8682665




