MEET2020 | 快手劉霽:AI基礎能力決定每個公司AI的迭代和落地效率
郭一璞 整理自 MEET2020智能未來大會
量子位 報道 | 公眾號 QbitAI
快手這家短視頻內容公司,已經成為人工智能C端落地的代表者。
面對海量的內容和內容生產者、消費者,快手無論是從對內容理解把控、消費分發還是各類商業化延伸應用,都將AI運用到了業務之中。
在短視頻內容平臺上應用AI,哪些事情是最為重要的?
AI是如何在快手為“老鐵”們創造福利的?
AI又有哪些被忽視的應用場景?
在MEET2020智能未來大會上,快手AI平臺負責人劉霽揭秘了這一切。
關于MEET2020智能未來大會:量子位主辦,現場20多位行業大咖分享,1000多名行業觀眾參與,線上有近百萬從業者通過直播參與觀看和互動,包括新華社在內的數十家主流媒體報道,活動整體線上總曝光量超過千萬。
要點
1、AI最大的源動力就是數據。
2、AI模型的訓練是計算的過程,計算的效率決定了每個公司訓練AI的效率。
3、對于快手這樣的to C端產品,所有AI能力最后都體現在手機上,除了模型準確率之外,還有兩個因素也特別重要:一個是能耗,一個是延遲。
4、直播是現在短視頻行業變現非常重要的手段,幾乎占到一半的比重。
5、內容推薦本質上是要匹配視頻和用戶,就像滴滴的場景是匹配司機和用戶,兩者本質上很類似。
6、游戲的AI、游戲冷啟動、游戲的輔助設計,游戲關卡的設計、游戲數據的智能運營分析都是AI可以應用的場景。
劉霽演講分享全文
注:量子位在不改變原意的基礎上進行了編輯整理
今天很榮幸能夠代表快手來講一些快手在AI方面的探索,AI在快手有深厚根基,因為正如大家所知,快手的CEO、CTO等幾位創始人都是技術出身,比如CEO宿華講公司的代碼庫里他貢獻了超過70萬行代碼,公司里他的代碼量最多,所以快手其實是一家由技術基因驅動的內容的公司。
快手是一家以短視頻為主的內容公司,短視頻這個行業在過去的幾年增長非常迅速,主要體現在三個方面:
第一,從用戶時長上看,在過去兩年內,短視頻行業的人均在線時長增長了5倍,短視頻的總時長占有量僅次于移動通信網絡;
第二,從用戶量來講,整個短視頻行業的月活達到了8.2億,近3年增長率64%;
第三,從滲透率上來講,互聯網用戶中有68%人使用短視頻,增速達到了16%。
短視頻是成長非常快的新興行業,盡管在現在看來是理所當然甚至是大勢所趨,而快手作為行業的引領者和推動者,實際上在風口浪尖上經歷了很大的變革,以及痛苦的轉型。
最早在2011年的3月的時候,我們的產品叫GIF快手,是GIF這樣一種特殊的內容形態的編輯工具產品。
到了2013年7月,這正是移動互聯網從3G跨越到4G時代的時間點,通訊效率已經足夠支撐短視頻這種信息分享的方式,所以公司做了一個非常大的變革,把快手從工具類的產品轉型成為一個短視頻社交平臺。
轉型的陣痛非常明顯。此前GIF快手的DAU已經達到了1000萬,作為一個工具類的產品,這已經是非常驚人的DAU了,做出這樣重大的決策之后,我們的DAU瞬間掉了一半以上。
不過之后,快手的DAU很快又回到了1千萬,然后是1億,一年多之后到了2億,期間我們收購了A站,也領先了知乎。我們的內容生產者超過2億,每天新增作品超過1500萬,在過去8年內,平臺上短視頻的積累量超過了130億。
我們生產者眾多,我們平臺上的用戶作品很多,用戶行為也很豐富,點贊、評論、關注等等,這就和AI有天然的契合。
其實AI最大的源動力就是數據,在以前數據沒有那么大的時候,計算力沒有那么高的時候,AI想真正發揮作用是比較困難的一件事,真正AI的爆擴式的增長是源于數據增加,快手的海量數據為AI的落地提供了堅實的物質基礎。因此,AI在快手的落地發揮效能成為了一件理所應當的事情。在AI的浪潮下,快手在AI的各個方面做了很多的努力。
接下來我想從幾個方面來介紹一下快手在AI方面的建設。
AI基礎能力
首先,是基礎能力的建設。
對大家來說,AI的基礎能力不一定像AI產品那么直觀,那么我首先解釋一下AI的基礎能力。
圖像、聲音、語言是三個重要的信息來源,AI各種應用主要是圍繞這三個方面開展,而AI的基礎能力正是這三個方面所共需的能力,主要包含AI模型的訓練和推理兩個部分。
AI模型的訓練,輸入的是數據,輸出的是模型;模型推理是通過模型把數據轉化成決策。我們每天有海量的數據,無論訓練還是推理,本質上都是一個計算的過程,而計算的效率決定了每個公司AI的迭代效率和試錯成本。
快手在這方面做了巨大的努力和投入,希望能夠在基礎能力上做足積累和基本功。
我們今年成立了AI平臺部,這也是我在領導的部門,負責整合AI資源,打造通用的AI的基礎能力,并對基礎能力做孵化和迭代。這是從組織架構上對AI基礎能力的保障。
我們做了很多系統性的工作,比如說推薦系統有我們有自研的Kuiba和Persia等,Persia在業內先驅性地用GPU來做廣告推薦系統,比CPU提高了600倍的效率。
我們在分布式的訓練算法層面也做了很多基礎性研究,比如去中心化分布式計算的體系架構,發表了很多頂會論文,這些技術在Facebook、Microsoft等工業界的公司已經嘗試落地了。
此外,我們設計的分布式算法還可以大幅節省通訊量。
當我們多個機器在分布式計算的時候,他們之間通信的效率是影響最終并行效率的關鍵。現實中,通訊量太大會導致并行效率特別低,所以我們設計了一套有損信息壓縮通訊,這個信息壓縮雖然是有損的,但我的方法可以保證在信息經過有損壓縮后得到的結果是無損的,可以節省95%的計算量。這個技術正在大量應用到實際當中,包括現在常常聽到的聯邦學習等。
AI模型的推理在快手有非常重要的意義和作用,AI研究特別關心的一點是模型的準確率,而在快手這樣場景下,無論是變臉應用還是變聲玩法,我們大量的AI能力最后都體現在手機上,除了準確率之外,還有兩個因素也特別重要:一個是能耗,一個是延遲。
舉個例子,我們給手機做人臉識別解鎖,假設準確度達到了99.99%,但耗時長達一小時,或者每次刷臉就耗掉了一半的電量,我相信沒有人愿意用這樣的手機。這是一個很極端的例子,但也說明了能耗和延遲跟準確度有著同樣的重要性。
在快手,我們用戶手機的機型千變萬化,從低端機到高端機覆蓋非常豐富的產品線,這對快手提出了巨大的挑戰,需要讓AI模型能在不同硬件上部署。所以,前面提到的準確率、能耗、延遲三個指標,我們同時要關注用戶使用的各種不同型號的手機上體現,這也決定了在快手產品形態中哪些AI技術能夠真正部署進去。
這是我們做的一套端到端的解決方案,比傳統的AI模型壓縮方法更高效,比手動壓縮更高效更準確。
端到端有兩層含義:
第一層是手機的低端到高端,這個解決方案能把從低端手機到高端手機所有機型全部覆蓋;
第二層是從硬件端到數據端,我們的目標是需要一個準確度高的模型——這是由數據驅動的,對模型的約束是運行在特定的機型上,能耗和延遲必須達標,這是由硬件端決定的。所以這是硬件端到數據端聯合學習和聯合AI能力的建模。
基于此,我們在計算機頂會上發了很多論文,內部也有大量的落地場景。此外值得一提的是我們我們設計的YCNN自研推理引擎拿到了CCF科學技術進步獎。
模型訓練和推理,這兩塊是我們在AI基礎能力方面的建設,在此基礎之上,我們可以將AI模型運用到很多不同的場景。快手是一個內容公司,聚焦于內容,我們做了不同維度應用場景的劃分。
內容理解
我們先來看看內容理解方面,AI有哪些應用。
在快手,提到內容理解,大家首先會想到風控,需要實時檢測不雅視頻、不當言論。但一個挑戰在于,我們的內容形態是視頻,視頻里包含語音、圖像、動作、評論等等,這是一個多模態信息,我們需要對多模態信息做綜合性的分析和理解,這就提出了比以前單一的信息源更大的挑戰。
另外一塊是視頻去重,這對保護原創特別重要,有的老鐵自己做了非常好的音樂和視頻,可能會被別人盜用,如何避免這類問題,把有侵權行為的視頻扼殺在搖籃里。
除了風控之外,我們還做了基于視頻理解的自動配背景音樂的功能。
常見的方式是拍了視頻再從音樂庫里找合適的音樂,但這種方式一方面費時,另一方面音樂可能和視頻情節難以完美匹配。我們的方式是先理解視頻,再自動配音樂,在視頻中不同的部分配上不同情感的音樂。
內容生成
第二塊是內容生成。
老鐵們把視頻們傳上來了,他還想視頻是不是可以做的再漂亮一點,幾乎99.99%的用戶都是業余攝影者,他攝影的能力相對水平偏低,因此需要借助我們內容生成的能力,幫助大家美化視頻,美化內容。
比如變臉:
3D的萌面表情:
還有一張照片到一條視頻的生成:
內容消費
接下來是內容消費。
當老鐵們上傳內容并做了各種編輯之后,希望用戶們看到他的作品。這個時候問題出現了,很多用戶受網絡帶寬的限制,沒有辦法看到特別高清的視頻。我們可以用AI技術來彌補,窗外的圖像只有360P,我們用AI技術增強成為720P。
另外一個非常重要的應用是短視頻的直播和傳輸。直播其實是現在短視頻行業變現非常重要的手段,幾乎占到一半的比重。直播中保證用戶體驗的關鍵就是視頻的碼率。在快手,我們摒棄了傳統的PCP的協議,也沒有用Google Quic協議來做視頻的編解碼,快手自己定義了一套快手多媒體傳輸協議KTP(Kwai Transport Protocol),K代表“快”,比開源工具最優碼率的質量提高了20%以上。
△ KTP表現優于Google Quic
內容推薦
內容推薦本質上是要匹配視頻和用戶,就像滴滴的場景是匹配司機和用戶,兩者本質上很類似。
快手做了非常多努力。首先數據量非常大,TB級別的模型量,萬億級別的特征值,千億級別的推薦,我們用到了深度學習的方法。
另外強化學習在其中的應用蠻有意思,我們做視頻推薦的時候,每次推薦的并不是一個視頻,而是一組視頻。傳統的推薦只是一套ranking算法,用戶來了之后對每一個視頻進行打分,把高的選出來,低的丟掉。如果要推薦10個視頻給用戶,就把Top10推薦給用戶了。
因此傳統推薦的算法沒有考慮到視頻間的相互影響和順序。我們觀察到如何選擇視頻的組合以及如何把這些視頻的順序做合理的調整對用戶的體驗非常關鍵,我們用深度強化學習的方法解決了這些問題。
最后是圖表達學習,這個在快手特別重要,快手目標是打造一個社區,而不僅僅簡單是一個內容的分發和上傳的一個App,所以用戶之間的交互是非常頻繁的。在這樣一個上億的大的知識圖譜里面,如何把用戶的表達、視頻的表達做出很多有意思的事情,其實是特別重要的。
快手游戲
最后一個環節我想講一講快手游戲。
游戲其實也是一個AI可以大放異彩的地方。快手有100多款小游戲,有上百萬的DAU,游戲的AI、游戲冷啟動、游戲的輔助設計,游戲關卡的設計、游戲數據的智能運營分析都是AI可以應用的場景。
我們在里面做了很多蠻有意思的事情,我們設計了游戲AI做關卡難度的自動評定,降低了90%的測試工作量。今年夏天的DeeCamp夏令營上我們帶了一個隊伍做游戲AI的項目,拿到了夏令營最高獎,同時也在ICLR等頂會發表了一些論文,這是把學術和產品結合的非常完美的一個場景。
最后講一講我們的布局,快手現在人員規模達到1萬員工,除了在國內北京、杭州、深圳有辦公室,同時在美國的西雅圖、硅谷等我們也有分公司。
最后我想用一句話結束我今天的報告:
快手,用有溫度的科技提升每個人獨特的幸福感,謝謝大家!
- MEET2020 | 百度景鯤:AI交互正在吃掉舊產品邊界,觸達移動互聯網盲區用戶2019-12-10
- MEET2020 | 王硯峰揭秘搜狗AI技術體系:自然交互在左,知識計算在右,核心是語言2019-12-16
- MEET2020 | 曠視唐文斌:你到底給誰創造了什么樣的價值?這是AI產品的靈魂拷問2019-12-17
- 小冰完成數億元Pre-A輪融資,投資方為北極光創投和網易,還宣布了和老東家微軟的戰略合作2020-11-24




