三個人BERT了一下,從騰訊廣告拿走50萬冠軍獎
AI變革下的騰訊廣告
金磊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
憑著BERT,這三個人拿下了7萬美元?(近50萬人民幣)的巨額賽事冠軍獎。
這就是2020騰訊廣告算法大賽的終極戰(zhàn)果——這支名為DYG的戰(zhàn)隊,從萬名選手中一路披荊斬棘,最終斬獲冠軍。
從左至右:騰訊廣告副總裁蔣杰,「DYG」隊王賀、郭達雅、梁少強
冠軍隊伍DYG共由三名成員組成,分別是:
- 武漢大學計算機碩士、算法工程師,王賀。
- 中山大學-微軟亞洲研究院聯(lián)合培養(yǎng)博士,郭達雅。
- NLP相關(guān)從業(yè)者,梁少強。
騰訊廣告算法大賽自2017年開展首屆以來,每年都會吸引來自世界各地的技術(shù)高手參加。
盡管今年遭遇疫情沖擊,但本次騰訊廣告算法大賽依然吸引到了超1,000所國內(nèi)外院校、3,000多家企事業(yè)單位的11,000人報名參與,規(guī)模超過同期其他算法大賽2倍之多,火熱程度可想而知,目前已經(jīng)成為了全球最受矚目的頂級算法賽事之一。
而騰訊廣告算法大賽能有如此魅力,靠的不僅僅是獎金,更是源于基于其真實場景的賽題、海量的數(shù)據(jù)、免費的超強計算資源,還有對人才的極力重視。
稀疏數(shù)據(jù)下也能精準預測,BERT效用驚人
由騰訊廣告主辦的騰訊廣告算法大賽,已經(jīng)邁入第四個年頭,而今年的比賽在多個層面上都得到了進一步升級:
- 獎金方面,今年的獎金池擴大到了百萬級別,冠軍隊伍將斬獲7萬美元(近50萬元人民幣)的高額獎金,亞軍和季軍隊伍也能分別獲得1萬美元和5,000美元,而其余進入決賽圈的十強隊伍也分別能獲得1,000美金的獎勵。
- 評委方面,陣容比去年有了更大升級,外部評委包括微眾銀行首席AI官楊強、清華大學計算機系教授唐杰、北京大學算計系副主任崔斌、大數(shù)據(jù)與人工智能專家劉鵬;內(nèi)部評委包括騰訊廣告副總裁蔣杰、騰訊公司副總裁王巨宏、騰訊廣告副總經(jīng)理楊毅果、騰訊云副總裁黃世飛等騰訊高管。在決賽現(xiàn)場,騰訊廣告算法大賽組委會還邀請到了騰訊數(shù)據(jù)平臺部副總經(jīng)理劉煜宏、英特爾全球大客戶總監(jiān)米琦、騰訊云產(chǎn)品部AI基礎(chǔ)產(chǎn)品中心總經(jīng)理徐曉敏,以及多位技術(shù)高管蒞臨現(xiàn)場指導。
- 資源支持方面,騰訊廣告算法大賽引入了更多的合作伙伴,聯(lián)合了騰訊云AI、騰訊大數(shù)據(jù)、騰訊招聘、騰訊高校合作以及英特爾舉辦。與此同時,騰訊會議為大賽全程提供遠程協(xié)同、線上會議及直播等服務(wù),英特爾和騰訊云智能鈦機器學習平臺TI-ONE共同支持AI算法平臺,大賽同時推薦使用針對稀疏高維模型優(yōu)化的Angel訓練框架。
除此之外,賽題本身因其挑戰(zhàn)性和趣味性也成為了一道別樣的風景線——首次采用「逆向思考」賽題:「廣告受眾基礎(chǔ)屬性預估」。
根據(jù)騰訊廣告真實業(yè)務(wù)的脫敏數(shù)據(jù),利用機器學習的技術(shù),在用戶數(shù)據(jù)稀疏的情況下,實現(xiàn)精準預測用戶屬性。
可以說,這樣的賽題具有很強的現(xiàn)實意義——既能保證用戶的數(shù)據(jù)隱私安全,又能解決投放中廣告主自有數(shù)據(jù)稀疏的實際問題。
也正如騰訊廣告副總裁蔣杰所說:
數(shù)據(jù)隱私和冷啟動問題,是行業(yè)所面臨的共性問題。
那么面對這樣的挑戰(zhàn),參賽選手又是如何解決的呢?
斬獲第一名的「DYG」戰(zhàn)隊給出了一個清晰的解法——BERT。
BERT是由谷歌提出,與自然語言處理相關(guān)的技術(shù),并且至今還在不斷迭代優(yōu)化。
「DYG」贏得比賽的關(guān)鍵點,就是將BERT應(yīng)用到預訓練模型(基礎(chǔ)屬性預測場景)之中。
此外,「DYG」還提出了「融合概率分布」的方法及模型,利用多層Transformer融合概率分布及BERT的語義表示,有效地提升了性能。
「DYG」也憑著BERT一路披荊斬棘,在A榜、B榜成績中都拿下了第一的名次。
獲得亞軍的「山有木兮」團隊也曾想在預訓練模型階段直接采用BERT,但是考慮到訓練時長、調(diào)試成本等因素,最終換了一種方式——仿BERT,實現(xiàn)分層次的標簽信息注入,再通過Target Encoding、多模型融合等操作不斷刷新比賽成績,最終取得了本場比賽的第二名。
而排名第三至十名的隊伍中,雖然也有隊伍表示曾考慮采用BERT,但面對計算量的問題,最終采用的還是常用的LSTM等技術(shù)。
對此,蔣杰在量子位的采訪中表示:前兩名隊伍的計算量其實并不大,這是因為他們在做完embedding之后,對整個參數(shù)進行了一次強壓縮,也就是說,已經(jīng)做過了一次篩選。
嗯,BERT,真香!
無論是人力、物力,還是財力、精力,騰訊廣告每年在這個大賽的投注不菲,而且今年疫情之下,難度更上一層樓。
那么問題來了。
騰訊廣告為什么每年「重金」舉辦算法大賽?
人才,人才,還是人才。
本屆騰訊廣告算法大賽,除了高達百萬的獎金池之外,還有一個特別亮眼的「福利」:
面試直通車——優(yōu)秀團隊可以獲得免筆試資格。這樣的案例過往不在少數(shù),而對于今年面臨就業(yè)難的應(yīng)屆生來說,通過技術(shù)比賽入職騰訊,是一個極具誘惑力的橄欖枝。
也就是說,每年重金舉辦算法大賽,背后是騰訊廣告對算法人才的「求賢若渴」。
正如蔣杰在采訪中表示:
歡迎這些拿到好名次的選手,明年能夠繼續(xù)參加算法大賽。我們也期待有更多的選手能通過算法大賽入職騰訊。
今年騰訊廣告算法大賽報名人數(shù)已經(jīng)高達11,000人,這種規(guī)模的算法比賽,在全球范圍來看也是頂級的。
然而,蔣杰帶領(lǐng)下的騰訊廣告并不滿足于此:
要吸引更多的人才,就需要更大的吸引力。
明年的賽事依然會持續(xù)升級,獎金池只會增加不會減少。
通過算法比賽網(wǎng)羅天下英才,打造一個技術(shù)交流和分享的平臺,是騰訊廣告持續(xù)四年舉辦騰訊廣告算法大賽不變的初衷。
當然,對人才如此重視的騰訊廣告,對技術(shù)的探索并不只局限于騰訊廣告算法大賽這一項年度技術(shù)盛事。
在今年的6月2日,新一年的「騰訊廣告犀牛鳥專項研究計劃」正式啟動。
這是騰訊廣告在產(chǎn)學研合作計劃中的重要項目之一:
該項目面向全球高校全職學者或科研機構(gòu)的全職研究人員,旨在開放騰訊廣告業(yè)務(wù)中的技術(shù)挑戰(zhàn),搭建產(chǎn)學研合作平臺,共同探索影響廣告技術(shù)長遠發(fā)展的前沿問題,并培養(yǎng)優(yōu)秀人才。
從2018年開始,每年一次的騰訊廣告「犀牛鳥專項研究計劃」也得到了海內(nèi)外學者的廣泛關(guān)注和積極參與——已有20余所高校通過層層篩選,開啟和騰訊廣告的專項合作,面向廣告真實問題與業(yè)務(wù)實際需求,與廣告研發(fā)團隊開展密切的科研協(xié)作。
今年的「犀牛鳥專項研究計劃」,圍繞機器學習、推薦系統(tǒng)、自然語言處理三大技術(shù)領(lǐng)域話題設(shè)立八大研究命題。某種程度上也映射著騰訊廣告著重發(fā)力的技術(shù)探索方向。
當然,騰訊廣告在這項計劃中也給出了「福利」:
金額超百萬的研究基金支持。
將向參與專項研究計劃的師生開放實驗環(huán)境。
赴騰訊實習的寶貴機會,在研發(fā)人員和學校導師的共同指導下開展研究工作。
此外,騰訊廣告聯(lián)合騰訊高校合作搭建學界和產(chǎn)業(yè)界的直播活動——Wiztalk,也同步以淺顯易懂的口吻,面向營銷人及技術(shù)人員分享歷年犀牛鳥專項合作成果。
正如蔣杰所述:
從2011年的廣點通團隊一路發(fā)展至今,騰訊廣告的技術(shù)毫無疑問屬于第一梯隊的行列。但我們肯定不會止步于此,更需要以一種求索的態(tài)度去探索最前沿的技術(shù)命題。而算法大賽就是一個絕佳的方式。
人才是騰訊最寶貴的財富。只有讓更多的人才加入騰訊,來到騰訊廣告,才能讓騰訊廣告平臺能力和技術(shù)能力得到持續(xù)的提升。
AI變革下的騰訊廣告
實際上,如果對「算法」和「鵝廠」有所關(guān)注,應(yīng)該對這場影響力越來越大的比賽以及背后的騰訊廣告,不會太陌生。
在去年騰訊廣告算法大賽落幕現(xiàn)場, 不少人也感嘆:
騰訊廣告,可能是一個被低估的騰訊AI業(yè)務(wù)。
廣告目前是最為成熟的互聯(lián)網(wǎng)商業(yè)化模式。而騰訊作為一家國內(nèi)數(shù)一數(shù)二的互聯(lián)網(wǎng)公司,廣告業(yè)務(wù)在商業(yè)化的技術(shù)探索上也走在行業(yè)前列:
有AI亟需的百億維數(shù)據(jù),有復雜多元的效果轉(zhuǎn)化鏈路能夠源源不斷地提出新的挑戰(zhàn),更有可以不斷產(chǎn)生效果和反饋的行業(yè)應(yīng)用場景。
一言以蔽之,AI在廣告業(yè)務(wù)中,能夠找到最合適的用武之地。
而今年,這種特征變得更加顯性。
今年年中的「騰訊廣告2020年中秀?營銷大變局」線上峰會上,騰訊廣告提出了它的全新定位——商業(yè)服務(wù)中臺。
根植于騰訊獨有的C to B「超級連接」體系,騰訊廣告首次系統(tǒng)化提出了全鏈路數(shù)字化營銷四大連接模型,即品牌心智連接、交易轉(zhuǎn)化連接、私域用戶連接和體驗創(chuàng)新連接。
這個模型定位于騰訊面向企業(yè)的商業(yè)服務(wù)中臺,并聯(lián)動全平臺資源和生態(tài)合作伙伴共同助力企業(yè)實現(xiàn)全鏈路數(shù)字化營銷轉(zhuǎn)型,更好地實現(xiàn)用戶與商業(yè)的連接。
在去年年底擔任騰訊廣告副總裁之前,2012年入職騰訊的蔣杰已經(jīng)是騰訊數(shù)據(jù)平臺部總經(jīng)理及騰訊智慧零售產(chǎn)研副總裁,但他在采訪中一直自謙自己是一個「廣告新人」。
他在加入騰訊廣告之后,大刀闊斧地實現(xiàn)了多項整合工作,將投放端及API生態(tài)實現(xiàn)多端統(tǒng)一和升級,并以此推動了數(shù)據(jù)能力、策略能力等多個維度的技術(shù)整合。
從「用戶理解」、「用戶觸達與影響」及「用戶轉(zhuǎn)化與運營」三大環(huán)節(jié),蔣杰所負責的騰訊廣告技術(shù)業(yè)務(wù),也將為企業(yè)的全鏈路數(shù)字化營銷提供全面支撐。
他總結(jié)道:
騰訊廣告的產(chǎn)品和技術(shù)愿景旨在連接用戶與商業(yè),驅(qū)動交易全鏈路的用戶增長,讓技術(shù)為商業(yè)創(chuàng)造更大的價值。
但騰訊廣告的中臺,并不是「自上而下」高屋建瓴地進行規(guī)劃,也不是先喊出一個「中臺」的口號,再逐步進行建設(shè)的。
蔣杰認為:
中臺是在服務(wù)業(yè)務(wù)的過程中一步步沉淀出來的。騰訊廣告把「中臺思想」貫穿到每一次對廣告主的服務(wù)當中。
廣告鏈路很長,騰訊廣告需要在全鏈路上的每個環(huán)節(jié)都要實現(xiàn)技術(shù)突破,基于全鏈路的優(yōu)化,也將是騰訊廣告的技術(shù)團隊的一場持久戰(zhàn)。
而在這一點上,騰訊廣告并不會以犧牲用戶隱私為代價,相反,騰訊廣告一直貫徹騰訊「用戶為本,科技向善」的愿景與使命,將用戶隱私的保護放在最重要的位置上。
本次算法大賽的題目也是基于用戶隱私的保護而設(shè)立,希望能通過對用戶數(shù)據(jù)特征的深度理解,在合法合規(guī)的基礎(chǔ)上提高廣告業(yè)務(wù)的投放精準度,在保障用戶隱私的前提下最大化用戶體驗。
這也正是騰訊廣告每年不惜重金舉辦如此大規(guī)模的算法大賽,且對算法人才如此渴求的原因所在。
人才渴求、技術(shù)重視,也進一步轉(zhuǎn)換為業(yè)績。
在疫情影響下的2020年第一季度,騰訊網(wǎng)絡(luò)廣告業(yè)務(wù)的收入同比增長32%,至人民幣177.13億元,社交及其他廣告收入增長47%至人民幣145.92億元。
騰訊廣告業(yè)績堪稱逆市上漲。而騰訊市值也隨著創(chuàng)下新高。
「美好連接,智慧增長」, 這是騰訊廣告的品牌主張。
我們也相信,像騰訊廣告算法大賽這樣難得的技術(shù)交流平臺,能夠為騰訊廣告以及騰訊輸送更多的人才,讓用戶和廣告在美好的場景下自然相遇,讓互聯(lián)網(wǎng)的商業(yè)化路徑變得更加智能和智慧。



