湯曉鷗縱論商湯AR:AI驅(qū)動發(fā)力已超3年,落地多個場景
乾明 發(fā)自 友誼賓館
量子位 報道 | 公眾號 QbitAI
商湯AR,AI驅(qū)動,已經(jīng)落地多個場景。
剛剛,在IEEE支持舉辦的2019國際混合與增強現(xiàn)實研討會(ISMAR 2019)在北京召開。
商湯科技創(chuàng)始人、香港中文大學教授湯曉鷗對外披露商湯最新AR研究進展與布局。
而且,不僅僅只是秀肌肉。他還進一步介紹了當前AR在各大領(lǐng)域遇到的挑戰(zhàn),以及相應的解決辦法和核心技術(shù)。
在他看來,AR正當時:
今天的AI技術(shù)已經(jīng)能讓我們更好地理解這個現(xiàn)實世界,而AR技術(shù)可以將現(xiàn)實世界和虛擬世界無縫融合起來。
不僅僅只是他有這樣的感受。
當前蘋果、谷歌,都在重兵囤下AR生態(tài)開發(fā)。高通等基礎(chǔ)算力提供方,也認為5G正在加速新計算平臺的到來——且認為是AR。
商湯也已經(jīng)布局多年,湯曉鷗說:
近年來將AI和AR技術(shù)深度融合到產(chǎn)品的研發(fā)中,有效擴展了AR應用的想象空間。
那么,作為中國估值最高的AI公司,商湯到底是如何布局的?
又有哪些核心技術(shù)與亮點?一起來看看~
湯曉鷗縱論AR
湯老師的演講主題,是AI+AR: Magic in the AIR。
簡單開場之后,就直接切入了正題——AI如何+AR?
在他看來,AR是一種在現(xiàn)實生活場景中無縫整合虛擬物體或信息的技術(shù)。
與傳統(tǒng)的文本、圖片和視頻相比,能夠更有效、直觀地提供信息。
AI技術(shù),能夠?qū)F(xiàn)實世界的信號作為輸入,來實現(xiàn)場景感知、語音交互、圖像識別、人臉檢測、情感認知等任務,現(xiàn)在已經(jīng)成熟。
再加上大數(shù)據(jù)、云計算和5G等技術(shù)的發(fā)展落地,就形成了基礎(chǔ)技術(shù)框架。
AR正是這一基礎(chǔ)框架的應用,也是這些技術(shù)的直接落腳點。
現(xiàn)在,伴隨著這些技術(shù)的成熟和落地,AR也開始進入我們的生活,從黑科技向日常應用轉(zhuǎn)變。
和之前大多數(shù)湯老師發(fā)言不同,這次演講才剛剛開始,他就祭出了自己鐘愛的電影《花樣年華》,直觀地展示了AR+AI帶來的“神奇魔法”,也引起現(xiàn)場一片驚呼。
接下來,AR化妝是湯曉鷗在演講中提到的第一個場景。
這一場景中,最核心的如何捕捉面部特征。
他說,在人臉識別、3D人臉重建和人臉編輯等許多人臉應用中,這是至關(guān)重要的一步。
自然挑戰(zhàn)也有不少。比如沒有足夠的特征點、缺乏精確的數(shù)據(jù)、在遮擋、運動模糊等情況下很難預測等等。
對于這些挑戰(zhàn),湯老師也都介紹了相應的解決思路:
可以通過虹膜輪廓特征點和耳朵特征點,來補充特征點。
至于缺乏數(shù)據(jù)以及遮擋、運動模糊等情況,可以用半監(jiān)督框架、結(jié)構(gòu)感知的去模糊網(wǎng)絡(luò)等方式來解決。
之后是AR導航,這也是AR落地非常難的一個場景。
湯老師說,傳統(tǒng)的導航方案,比如GPS以及WiFi、藍牙等雖然普及,但都存在各種各樣的缺點。
比如誤差大于10米、室內(nèi)無法用(GPS);硬件成本貴、需要附加部署等(WiFi、藍牙)。
相比之下,視覺解決方案有不少優(yōu)點,成本低,而且精度高,效果也比較直觀等等。
但也有挑戰(zhàn),比如很難應對缺乏視覺特征、環(huán)境變化的情況,以及需要繁重的計算等。
不過,這并沒有阻攔AR導航成為一種新風向。
在基于學習的視覺特征、云端協(xié)作、同時定位與地圖構(gòu)建(SLAM)等技術(shù)的基礎(chǔ)上,稀疏地圖重建、密集地圖重建和視覺定位等相關(guān)應用愈發(fā)成熟。
然后是AR數(shù)字人,這也是近年來最為熱門的AR應用之一。
簡單來說,AR數(shù)字人就是利用AI技術(shù)來驅(qū)動數(shù)字智能體說話與行動。
當想要讓它變得實用,還有不少挑戰(zhàn),比如音頻到3D映射非常困難、如何保持連貫性等等。
湯老師同樣也給出了相應的思路,采用跨模態(tài)機器學習、連續(xù)的時間序列建模等方法,能夠比較好的解決這些問題。
商湯也已經(jīng)交付了相應的解決方案——SenseAR Avatar。
湯老師說,借助弱監(jiān)督學習、基于視圖合成的幾何感知表示、基于圖像的排序預測等技術(shù),可以有效地完成的動作捕捉、3D動作恢復以及的動作傳遞。
接下來是AR游戲,背后的關(guān)鍵技術(shù)也是同時定位與地圖構(gòu)建(SLAM)。
與當前大多數(shù)AR游戲不同,商湯發(fā)力的是移動端上的多人AR游戲,這也帶來了新的挑戰(zhàn)——怎么讓多個用戶都能參與進來。
湯老師說,想要實現(xiàn)這一點并不容易。不僅要在充滿挑戰(zhàn)性的環(huán)境中保持穩(wěn)定,還要考慮到大規(guī)模場景中移動設(shè)備的性能。
作為AR中的關(guān)鍵技術(shù),商湯在SLAM上也投入了大量的資源,而且與當前的傳統(tǒng)方案相比,不僅效率更高,而且也更加穩(wěn)定。
他也給出了相應的數(shù)據(jù),在支撐多人AR游戲的時候,定位時間少于1秒。
湯老師談到的最后一個場景,是AR尺子&AR家居
這也是SLAM技術(shù)應用落地的重要方向,但這個方向?qū)鹊囊髽O高。
湯老師說,商湯的RGBD-SLAM技術(shù)能夠在計算資源有限的情況下,支持長距離測量,而且平均測量誤差為2.60%。
在AR家居場景中,借助RGB攝像頭與IMU的緊密耦合,將分級誤差控制在3%,并且能夠進行穩(wěn)定追蹤。
雖然這些場景,已經(jīng)覆蓋了大家生活中的許多方面。
但這些并不是僅僅只是“Magic in the AIR”的開端,在他看來,AI+AR還要更多的可能性。
可以設(shè)想一下,物理世界大規(guī)模3D數(shù)字化、人類行為數(shù)字化之后,會發(fā)生什么?
商湯發(fā)力AR已三年,邊界正擴張
湯老師今天所展現(xiàn)的,并不僅僅只是學術(shù)研究,而是商湯實踐多年的經(jīng)驗總結(jié)。
2016年,AR游戲Pokemon GO風靡全球,進一步引爆AR應用潮流。
在這一年,商湯就已經(jīng)開始發(fā)力AR,將AI技術(shù)應用到AR產(chǎn)品的研究和開發(fā)之中,打造出了SenseAR特效引擎。具體的發(fā)展思路和當初發(fā)力AI技術(shù)一樣,也是“產(chǎn)學研”相結(jié)合。
一方面,與浙江大學共建“浙江大學-商湯三維視覺聯(lián)合實驗室”,重點研究SLAM和三維重建等方向,另一方面推動學術(shù)和產(chǎn)業(yè)界共同成立了“中國增強現(xiàn)實核心技術(shù)產(chǎn)業(yè)聯(lián)盟”。
與此同時,相應AR產(chǎn)品也陸續(xù)問世。2018年,商湯AI峰會上SenseAR特效引擎和SenseAR開發(fā)者平臺率先登場,迎來新一輪能力升級。
之后,商湯眾多AR應用也相繼落地,比如AR美顏、AR貼紙?zhí)匦У鹊龋_始被業(yè)內(nèi)各大公司采用,比如OPPO等。
今年5月15日,2019年商湯AI峰會舉辦。AR領(lǐng)域壓軸出場,對SenseAR 特效引擎和SenseAR平臺都進行了大幅度升級。
尤其是后者,增加了SenseAR Glass眼鏡平臺、SenseAR Cloud云平臺等功能。在打破云端界限、結(jié)合虛擬與現(xiàn)實世界、完成空間內(nèi)的多人共享、 虛擬信息持久化等方面向前邁出了一大步。
此外,還有SenseAR Avatar。商湯介紹稱,這是當前市場上首個可以實現(xiàn)照片生成和真人驅(qū)動的AR產(chǎn)品,能夠利用3D渲染對用戶面部進行重建,從而建立一個實時的虛擬形象。
從技術(shù)、應用、平臺等各個方面來看,商湯的AR已然形成相應規(guī)模,已經(jīng)與谷歌和蘋果一起,成為市場上主要的AR平臺供應商之一。
而在本次ISMAR 2019大會上,商湯方面并不只是僅僅有湯老師演講,還展示了一系列創(chuàng)新的AR應用。
活動中,商湯帶來了可實現(xiàn)室內(nèi)外定位和AR導航的“SenseAR高精定位和內(nèi)容增強解決方案”。
并贊助了專為AR應用設(shè)計的SLAM競賽,基于商湯科技與浙江大學聯(lián)合發(fā)布的測試數(shù)據(jù)集,來全面地評估SLAM系統(tǒng)在AR應用下的性能。
從整體上來看,這不僅僅是商湯AR的進一步展示,也是其加碼AR領(lǐng)域的決心顯現(xiàn)。
在湯老師演講的最后,他也給出了對AR未來的展望。
AI+AR的未來,就是要實現(xiàn)數(shù)字世界和物理世界的無縫融合,能夠更聰明、更深入地了解人們生活和工作的方方面面。
這個時候,Magic in the AIR也必然到來。
但到了這個時候,這也就不是Magic in the AIR,而是Oxygen in the AIR了。
你覺得呢?




