中國(guó)軍團(tuán)稱(chēng)霸KDD:華人博士斬獲最佳論文,清華北大中科大華為等榜上有名
還稱(chēng)霸了“大數(shù)據(jù)世界杯”以及贊助席
乾明 魚(yú)羊 栗子 安妮 一璞 邊策 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
又一全球AI頂會(huì),盡是中國(guó)力量舉杯相慶。
KDD,數(shù)據(jù)挖掘領(lǐng)域國(guó)際最高級(jí)別會(huì)議,今年在美國(guó)阿拉斯加州舉行,最佳論文及三大競(jìng)賽等主要獎(jiǎng)項(xiàng),剛剛已全部揭曉。
今年,中國(guó)面孔星光璀璨。康奈爾大學(xué)華人博士Dong Kun以一作身份斬獲研究賽道最佳論文,初創(chuàng)公司獎(jiǎng)項(xiàng)、KDD CUP三大賽事,也基本被中國(guó)公司包攬。
詳情傳送如下:
雙盲評(píng)審第一年,15%接收率
KDD,國(guó)際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì),全稱(chēng):ACM SIGKDD Conference on Knowledge Discovery and Data Mining,是數(shù)據(jù)挖掘領(lǐng)域國(guó)際最高級(jí)別會(huì)議。
自1995年以來(lái),KDD大會(huì)連續(xù)舉辦了二十余屆,每年的接收率不超過(guò)20%,今年的接收率不到15%。
值得一提的是,今年也是KDD采用雙盲評(píng)審的第一年。
依然分為研究賽道和應(yīng)用賽道。
其中,據(jù)已公開(kāi)消息,KDD研究賽道共收到1179篇投稿,其中111篇被接收為Oral論文,63篇被接收為Poster論文,入選率14.8%。
應(yīng)用賽道收到700余篇論文,其中大45篇被接收為Oral論文,100篇被接收為Poster論文,接收率20.7%。
相較而言,KDD 2018年研究賽道接收181篇,接收率為18.4%,應(yīng)用賽道接受112篇,接收率22.5%。
強(qiáng)調(diào)論文可復(fù)現(xiàn)
而且最重要的是,KDD今年還在投稿通知中特別強(qiáng)調(diào)——可復(fù)現(xiàn)性——且規(guī)定該項(xiàng)會(huì)作為最佳論文評(píng)選資格,論文需要額外提交內(nèi)容展示可復(fù)現(xiàn)內(nèi)容。
包括實(shí)驗(yàn)方法、經(jīng)驗(yàn)評(píng)估和結(jié)果,也鼓勵(lì)在論文中公開(kāi)研究代碼和數(shù)據(jù),盡可能完整地描述論文中使用的算法和資源。
于是,KDD 2019也成為了備受關(guān)注的一屆。
來(lái)看具體獎(jiǎng)項(xiàng)都被哪些團(tuán)隊(duì)捧走了:
研究賽道最佳論文
Network Density of States(態(tài)網(wǎng)絡(luò)密度)
https://arxiv.org/pdf/1905.09758.pdf
論文來(lái)自康奈爾大學(xué)。第一作者是Dong Kun,康奈爾大學(xué)應(yīng)用數(shù)學(xué)專(zhuān)業(yè)博士生,碩士畢業(yè)于UCLA。
其他作者還有康奈爾大學(xué)計(jì)算機(jī)系助理教授Austin Reilley Benson和康奈爾計(jì)算機(jī)系副教授David Bindel,他也是Dong Kun的博士生導(dǎo)師。
譜分析將圖結(jié)構(gòu)與相關(guān)矩陣的特征值和特征向量聯(lián)系起來(lái)。許多譜圖理論直接來(lái)自譜幾何,通過(guò)相關(guān)微分算子的譜來(lái)研究可微分流形。但是從譜幾何到譜圖的轉(zhuǎn)換主要集中在僅涉及少數(shù)極端特征值及其相關(guān)特征值的結(jié)果上。
與幾何學(xué)不同,通過(guò)特征值的整體分布(譜密度)對(duì)圖的研究主要局限于簡(jiǎn)單的隨機(jī)圖模型。現(xiàn)實(shí)世界圖譜的內(nèi)部仍然在很大程度上難以計(jì)算和解釋?zhuān)形幢惶剿餮芯俊?/p>
在本文中,作者深入研究了真實(shí)世界圖譜的譜密度。我們借用了凝聚態(tài)物理中的研究工具能態(tài)密度,并添加了新的適應(yīng)性來(lái)處理常見(jiàn)圖形圖案的譜特征。所得到的方法是高效的,論文中已經(jīng)通過(guò)計(jì)算單個(gè)計(jì)算節(jié)點(diǎn)上具有超過(guò)十億個(gè)邊緣的圖的譜密度說(shuō)明了這一點(diǎn)。
除了提供視覺(jué)上引人注目的圖形指紋之外,本文還展示了譜密度的估計(jì)如何推動(dòng)許多常見(jiàn)中心度量的計(jì)算,并使用譜密度來(lái)估計(jì)有關(guān)圖結(jié)構(gòu)的有意義信息,這些信息無(wú)法只從極值本征對(duì)中推斷得出。
研究賽道第二名論文
Optimizing Impression Counts for Outdoor Advertising
https://dl.acm.org/citation.cfm?doid=3292500.3330829
這項(xiàng)研究解決的,是關(guān)于戶(hù)外廣告如何投放才最劃算的問(wèn)題,作者來(lái)自墨爾本皇家理工大學(xué)、新加坡管理大學(xué)、武漢大學(xué)和華為。
具體的問(wèn)題是該團(tuán)隊(duì)首次提出的,稱(chēng)之為戶(hù)外廣告印象數(shù)(Impression Counts for Outdoor Advertising,ICOA)。
馬路邊的廣告那么多,但能讓你有印象的很少,大部分都忘得無(wú)影無(wú)蹤,因此,只要廣告在你腦海中留下印象,許多廣告主的目的就達(dá)到了,這項(xiàng)研究也就是關(guān)于如何讓更多人留下更深刻印象的。
由于移動(dòng)互聯(lián)網(wǎng)的發(fā)達(dá),不管你用什么交通方式,開(kāi)車(chē)也好,騎摩托車(chē)、自行車(chē)也好,你每次出門(mén)的軌跡都可以被記錄下來(lái),因此研究者們找到了出行軌跡數(shù)據(jù)庫(kù)T。在此之外,還有給定的廣告牌數(shù)據(jù)庫(kù)U和廣告主的投放預(yù)算B。
因此,概括地說(shuō),戶(hù)外廣告印象數(shù)是這樣一個(gè)問(wèn)題:
廣告牌和預(yù)算就那么多,路人們就那么走,在這些給定的情況下,如何提升給路人們留下的總印象,讓錢(qián)花的最值呢?
這里要解決兩個(gè)問(wèn)題:
1.每塊廣告應(yīng)該讓一個(gè)路人看到幾次;
2.如何布局廣告牌的擺放,讓更多路人在出行軌跡上剛好看到最佳次數(shù)。
第一個(gè)問(wèn)題此前有研究解決了,是一個(gè)S形函數(shù),隨著廣告重復(fù)次數(shù)增加,給路人留下的印象越來(lái)越深刻,之后簡(jiǎn)單重復(fù)就沒(méi)用了,再多就只有副作用了。
而第二個(gè)問(wèn)題,廣告牌分布的問(wèn)題需要用算法解決。研究團(tuán)隊(duì)發(fā)現(xiàn)直接用貪心算法是不行的,于是提出了基于切線的算法計(jì)算子模塊函數(shù),為了提高效率,設(shè)計(jì)了θ終止方法和漸進(jìn)式上限估計(jì)方法進(jìn)行優(yōu)化。
最后,研究團(tuán)隊(duì)在用紐約和洛杉磯兩個(gè)城市的真實(shí)軌跡和廣告牌數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)后,驗(yàn)證這項(xiàng)研究中提出的方法是有效的。
應(yīng)用賽道最佳論文
獲得應(yīng)用賽道最佳論文的是Actions Speak Louder then Goals:Valuing Player Actions in Soccer(行動(dòng)勝于目標(biāo):重視足球中球員的行動(dòng)):
https://arxiv.org/pdf/1802.07127.pdf
論文的作者包括,來(lái)自比利時(shí)魯汶大學(xué)的Tom Decroos,來(lái)自SciSports公司的Lotte Bransean和Jesse Davis,以及比利時(shí)魯汶大學(xué)的Jesse Davis。
評(píng)估足球運(yùn)動(dòng)員在比賽中的個(gè)人行為表現(xiàn)對(duì)比賽結(jié)果的影響,是球員招募過(guò)程中的考察重點(diǎn)。然而,大多數(shù)傳統(tǒng)指標(biāo)在解決此任務(wù)時(shí)都不盡如人意,因?yàn)樗鼈円磳?zhuān)注于單獨(dú)的鏡頭畫(huà)面和目標(biāo)行為,要么不考慮球員做出某一動(dòng)作的環(huán)境背景。
這篇論文主要介紹了:(1)一種用于描述球場(chǎng)上各個(gè)球員動(dòng)作的新語(yǔ)言,SPADL;(2)一種根據(jù)球員表現(xiàn)對(duì)比賽結(jié)果的影響來(lái)評(píng)估球員動(dòng)作的新框架,VAEP,同時(shí)考慮到動(dòng)作發(fā)生時(shí)的背景。
通過(guò)匯總球員的動(dòng)作價(jià)值,就可以量化他們對(duì)球隊(duì)整體進(jìn)攻和防守的貢獻(xiàn)。
這項(xiàng)研究的亮點(diǎn)在在于考慮了通常都會(huì)被忽略的動(dòng)作背景信息,研究團(tuán)隊(duì)在2016/2017和2017/2018賽季的歐洲頂級(jí)賽事中用該方法收集了大量的用例。
△梅西果然自成一類(lèi)
應(yīng)用賽道第二名論文
這是一項(xiàng)用可穿戴設(shè)備來(lái)檢測(cè)認(rèn)知功能障礙 (可能是癡呆前兆) 的研究,由蘋(píng)果牽頭。
Developing Measures of Cognitive Impairment in the Real World from Consumer-Grade Multimodal Sensor Streams
https://dl.acm.org/citation.cfm?doid=3292500.3330690
可穿戴設(shè)備和移動(dòng)計(jì)算設(shè)備,如今無(wú)處不在,并且在技術(shù)上取得了卓越的進(jìn)步;再加上傳感器歐式的多樣化,這些進(jìn)步都給持續(xù)監(jiān)測(cè)患者、監(jiān)測(cè)他們的日常活動(dòng),提供了可能。
有這樣豐富的縱向信息 (Longitudinal Informationn) 可挖掘,就能為認(rèn)知功能障礙來(lái)分析心理學(xué)和行為學(xué)上的特征,并為及時(shí)且經(jīng)濟(jì)地檢測(cè)輕度認(rèn)知功能障礙 (MCI) 提供新的途徑。
MCI,就是介于正常認(rèn)知與癡呆之間的狀態(tài)。
這項(xiàng)研究提出了一個(gè)平臺(tái),用來(lái)遠(yuǎn)程、不侵犯地監(jiān)測(cè)認(rèn)知功能障礙的相關(guān)癥狀,只依靠幾個(gè)消費(fèi)機(jī)的智能設(shè)備。
團(tuán)隊(duì)展示了,這個(gè)平臺(tái)是怎樣在“Lilly探索性數(shù)字評(píng)估研究”里面,收集了16TB的數(shù)據(jù),支持了為期12周的可行性研究:監(jiān)測(cè)了31位有認(rèn)知功能障礙的患者,和82位沒(méi)有認(rèn)知功能障礙的、生活狀態(tài)自由的人類(lèi)。
研究人員還說(shuō)明了,嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)統(tǒng)一 (Data Unification) 、時(shí)間對(duì)齊 (Time-Alignment) 以及插補(bǔ)技術(shù) (Imputation) ,是怎樣處理現(xiàn)實(shí)中固有的數(shù)據(jù)缺失,并最終展現(xiàn)了這樣的數(shù)據(jù)在分辨癥狀中發(fā)揮的作用。
時(shí)間檢驗(yàn)獎(jiǎng)
今年的時(shí)間檢驗(yàn)獎(jiǎng)(test of time award)來(lái)自CMU和Nielsen BuzzMetrics,論文為:
Cost-effective outbreak detection in networks
https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf
之所以被評(píng)為這個(gè)獎(jiǎng),還是因?yàn)榫嚯x這篇論文在2007年首次發(fā)出已經(jīng)過(guò)去了12年,當(dāng)時(shí),CMU的Jure Leskovec、Andreas Krause、Carlos Guestrin、Christos Faloutsos、Jeanne VanBriesen和Nielsen BuzzMetrics的Natalie Glance6人因?yàn)檫@篇文章獲得了最佳學(xué)生論文。
在這篇論文中,研究人員證明了,很多現(xiàn)實(shí)生活中爆發(fā)檢測(cè)(比如檢測(cè)可能性、檢測(cè)受影響人群等)表現(xiàn)出“子模塊”的特性。
研究人員利用子模塊開(kāi)發(fā)出一種有效的算法,名為CELF算法,來(lái)優(yōu)化貪心算法(Greedy Algorithm)的效率。其算法如下:
結(jié)果表明,CELF算法可以擴(kuò)展應(yīng)用到比較復(fù)雜的問(wèn)題,還能接近最佳位置,同時(shí),比簡(jiǎn)單的貪心算法快700倍。
隨后,他們?cè)趲讉€(gè)大型的真實(shí)問(wèn)題上繼續(xù)對(duì)CELF算法進(jìn)行檢驗(yàn),利用美國(guó)國(guó)家環(huán)境保護(hù)局的水分配網(wǎng)絡(luò)模型和實(shí)時(shí)博客數(shù)據(jù),得到的傳感器位置可證明接近最優(yōu)解,提供了最優(yōu)解的常數(shù)分?jǐn)?shù)。他們還證明了這種方法可以擴(kuò)展,將存儲(chǔ)空間節(jié)省幾個(gè)數(shù)量級(jí)。
創(chuàng)業(yè)研究獎(jiǎng)
ACM SIGKDD于2017年推出了創(chuàng)業(yè)研究獎(jiǎng),旨在鼓勵(lì)早期創(chuàng)業(yè)公司參與數(shù)據(jù)科學(xué)領(lǐng)域。該獎(jiǎng)項(xiàng)由創(chuàng)業(yè)研究獎(jiǎng)委員會(huì)從多家競(jìng)爭(zhēng)的結(jié)果中確定。
今天獲獎(jiǎng)的四家公司分別是:Arkive、deepair、瑞萊智慧和天眼查。
Arkive是一家利用機(jī)器學(xué)習(xí)技術(shù)管理知識(shí)和經(jīng)驗(yàn)的公司,這家公司的創(chuàng)始人是兩名華人。
deepair為旅行供應(yīng)商提供基于AI的零售平臺(tái)。
瑞萊智慧是一家向企業(yè)提供工業(yè)預(yù)測(cè)性維護(hù)、工業(yè)檢測(cè)、無(wú)監(jiān)督反欺詐、人工智能系統(tǒng)攻防等服務(wù)的公司。
天眼查在國(guó)內(nèi)的知名度已經(jīng)相當(dāng)高,是一家向客戶(hù)提供企業(yè)大數(shù)據(jù)的公司。
人物獎(jiǎng)
在KDD的開(kāi)幕式上,IBM Watson的研究人員Charu Aggarwal因數(shù)據(jù)挖掘的終身成就獲得了SIGKDD的創(chuàng)新獎(jiǎng)(Innovation Award)。他還在本次會(huì)議上發(fā)表了三篇論文。
△Charu Aggarwal,圖片來(lái)自IBM官網(wǎng)
Charu Aggarwal于1993年在印度理工學(xué)校坎普爾分校獲得學(xué)士學(xué)位,之后又獲得了博士學(xué)位1996年到麻省理工學(xué)院工作。
他在數(shù)據(jù)挖掘領(lǐng)域開(kāi)展了廣泛的工作,特別關(guān)注數(shù)據(jù)流、隱私、不確定數(shù)據(jù)和社交網(wǎng)絡(luò)分析。他已經(jīng)出版了19本書(shū)籍,發(fā)表350多篇論文,并已申請(qǐng)或獲得80多項(xiàng)專(zhuān)利。他獲得了多項(xiàng)發(fā)明成就獎(jiǎng),并且三次被評(píng)為IBM的發(fā)明大師。
同樣是來(lái)自IBM Watson的Balaji Krishnapuram獲得了KDD的服務(wù)獎(jiǎng)(Service Award),以獎(jiǎng)勵(lì)他對(duì)數(shù)據(jù)挖掘做出的杰出貢獻(xiàn)。
它曾在2014年至2016年擔(dān)任ACM SIGKDD主席,2015年加入IBM Watson Health,為制藥行業(yè)開(kāi)發(fā)AI解決方案。
△Balaji Krishnapuram,圖片來(lái)自Twitter網(wǎng)友Prithwish Chakraborty
今年的學(xué)位論文獎(jiǎng)(Dissertation Award)頒發(fā)給了來(lái)自華盛頓大學(xué)的Tim Althoff,該獎(jiǎng)項(xiàng)第二名是來(lái)自UIUC的華人學(xué)者Chao Zhang。
KDD CUP 2019
今年的KDD CUP有3個(gè)賽道:
- 常規(guī)機(jī)器學(xué)習(xí)競(jìng)賽(Regular ML Track)
- 自動(dòng)機(jī)器學(xué)習(xí)競(jìng)賽(Auto-ML Track)
- “Research for Humanity” 強(qiáng)化學(xué)習(xí)競(jìng)賽(Humanity RL Track)
這一賽事,素來(lái)有“大數(shù)據(jù)世界杯”之稱(chēng),競(jìng)爭(zhēng)非常激烈。
KDD官方統(tǒng)計(jì),今年有來(lái)自39個(gè)國(guó)家的超過(guò)5000個(gè)人提交了17000份申請(qǐng)。
從最終的成績(jī)中來(lái)看,中國(guó)軍團(tuán)尤為亮眼,包攬了大多數(shù)獎(jiǎng)項(xiàng)。
首先說(shuō)常規(guī)機(jī)器學(xué)習(xí)競(jìng)賽,由百度贊助,一共分為兩個(gè)任務(wù)。
任務(wù)1的冠軍和亞軍都來(lái)自中國(guó)。其中,冠軍來(lái)自螞蟻金服;亞軍來(lái)自上海微盟、趨勢(shì)科技、滴滴出行、北京郵電大學(xué)、華南理工大學(xué)、京東等單位。
任務(wù)2的冠軍來(lái)自日本電信公司NTT DOCOMO,亞軍來(lái)自東南大學(xué)。
此外,額外設(shè)立的PaddlePaddle特別獎(jiǎng)則花落中國(guó)科學(xué)技術(shù)大學(xué)。
其次是自動(dòng)機(jī)器學(xué)習(xí)競(jìng)賽,由第四范式贊助。
冠軍來(lái)自中國(guó)的深蘭科技和北京大學(xué);亞軍來(lái)自新加坡國(guó)立大學(xué);第三名來(lái)自于阿里巴巴和佐治亞理工學(xué)院。
最后說(shuō)“Research for Humanity” 強(qiáng)化學(xué)習(xí)競(jìng)賽,由IBM和Hexagon ML贊助。
冠軍來(lái)自中國(guó)臺(tái)灣,國(guó)立成功大學(xué);亞軍來(lái)自清華大學(xué)、京東和北京航空航天大學(xué),第三名來(lái)自瓜子。
競(jìng)賽詳情地址:
https://www.kdd.org/kdd2019/kdd-cup
One more thing
不止論文、競(jìng)賽都被中國(guó)軍團(tuán)雄霸。
KDD 2019贊助商方面,中國(guó)力量也格外顯眼。
百度、騰訊、滴滴、阿里巴巴、快手、浪潮和字節(jié)跳動(dòng)和松鼠AI都出現(xiàn)在贊助名錄上。
所以也有調(diào)侃稱(chēng),AI頂會(huì)是時(shí)候考慮在中國(guó)舉辦了,畢竟離最核心參與者都更近,還無(wú)簽證之憂。
此外,KDD“圖深度學(xué)習(xí)國(guó)際研討會(huì):方法與應(yīng)用(DLG 2019)”于2019年8月5日舉辦。DLG 2019旨在匯聚自不同背景和觀點(diǎn)的學(xué)術(shù)研究人員和從業(yè)者,分享在圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的前沿技術(shù)。值得一提的是,國(guó)內(nèi)人工智能獨(dú)角獸乂學(xué)教育-松鼠AI深度參與的研究項(xiàng)目包攬了研討會(huì)的最佳論文和最佳學(xué)生論文獎(jiǎng)項(xiàng)。
獲得最佳論文的是來(lái)自華中師范大學(xué)、IBM研究院和乂學(xué)教育-松鼠AI的研究《Exploiting Graph Neural Networks with Context Information for RDF-to-TextGeneration 》,這篇論文研究的是基于RDF數(shù)據(jù)的文本生成,該任務(wù)是在給定一組RDF三元組的情況下生成相應(yīng)的描述性文本。
獲得最佳學(xué)生論文的是來(lái)自南京大學(xué)、IBM研究院和乂學(xué)教育-松鼠AI的研究《An Empirical Study of Graph Neural Networks Based Semantic Parsing》,這篇論文研究的是基于圖神經(jīng)網(wǎng)絡(luò)語(yǔ)義解析。
當(dāng)天的研討會(huì)由SIGKDD主席、京東集團(tuán)副總裁裴健發(fā)表開(kāi)場(chǎng)詞,并邀請(qǐng)了來(lái)自斯坦福大學(xué)、清華大學(xué)、UCLA、UIUC等高校的學(xué)者發(fā)表演講。乂學(xué)教育-松鼠AI首席科學(xué)家崔煒博士也受大會(huì)邀請(qǐng),介紹了目前圖深度學(xué)習(xí)和知識(shí)圖在自適應(yīng)學(xué)習(xí)中的進(jìn)展。
— 完 —




