Rokid祝銘明:未來5年,希望把所有人的眼鏡換成智能眼鏡
AI和AR是一件事
編輯部 整理自 MEET2024
量子位 | 公眾號 QbitAI
彭博社馬克·古爾曼(Mark Gurman)消息,蘋果2024年的重點是Vision Pro等,而非iPhone。
爆料稱,蘋果堅信Vision Pro將會成為2024年用戶的關注焦點,并相信它有望會在數年內“成為其財務故事的重要組成”。
這便是大模型浪潮之下,空間計算趨勢正在逐漸升溫的一個縮影。
無獨有偶,就在這則消息釋出前幾天,在MEET 2024大會上,相同的趨勢判斷也被Rokid創始人&CEO祝銘明(Misa)提了出來:
明年是XR的一個大年,如果不出意外,明年XR的熱度將會強過AI。
甚至表示希望在未來5年,將所有人的眼鏡換成智能眼鏡。

為何如此肯定?做出判斷的依據是什么?
有Rokid作為一家人機交互平臺公司將近10年的探索積累,當然也有來自創始人Misa對AI/操作系統/AR的技術理解。
為了完整體現Misa有關空間計算技術趨勢的思考,在不改變原意的基礎上,量子位對他的演講內容進行了編輯整理。希望也能給你帶來新的啟發。
關于MEET 智能未來大會:MEET大會是由量子位主辦的智能科技領域頂級商業峰會,致力于探討前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平臺報道直播了MEET2024大會,吸引了超過300萬行業用戶線上參會,全網總曝光量累積超過2000萬。
演講要點
- AI和AR其實是一件事。
- AR涉及感知/理解/交互/協同/內容創作五方面能力。
- 空間計算方面,VST和OST兩條技術路線并進。
- 明年XR的熱度將會強過AI。
- 未來5年,希望把所有人的眼鏡換成智能眼鏡。
AI和AR是一件事
謝謝大家,謝謝量子位,這是我今年唯一的一次公開的演講。我剛才發了個朋友圈,前后左右全是講AI的,所以我應不應該來這個講臺呢?
實際上我覺得應該來,不僅僅是說我應該作為另外一個技術方向來跟大家進行分享,實際上我要跟大家講的就是:AI和AR其實是一件事情。
我給大家分享一個故事,2014年,我離開阿里巴巴,那個時候大老板從美國飛回來,跟我有一個4個小時的溝通,為什么要離開阿里?溝通了很多很多東西,但本質上的一點我就跟他說,未來的20年有兩件事情會改變人和這個世界,一個是AI,一個就是AR,而我自己離開阿里巴巴,一個使命就是把這兩件事情變成一件事情。

所以為什么我說我今天來這里,如果大家了解Rokid的背景,了解我自己的背景,大家應該知道我是一個堅定的AI信仰者。
我們在2014年成立,今天Rokid被大家所理解到的或者感受到的是 AR,因為我們的眼鏡作為一個硬件產品比較耀眼,大家可能會認為Rokid是一家眼鏡公司,但Rokid從來沒有把自己定位成一家眼鏡公司。
Rokid 從2014年成立,15年的時候我們就在北京和硅谷分別成立了兩個實驗室,A Lab 和 R Lab。A Lab 就是AI,R Lab 就是Reality,加在一起就是AR。
所以大家看到Rokid從第一天起,就沒有隱瞞我們是一家什么樣的公司。但只是因為Rokid本身有不斷的產品迭代,從AI產品到AR產品的整個演進路線,所以大家經常容易被硬件的東西所抓住眼球,但實際上我希望大家知道 Rokid是做AI和AR的人機交互、新一代人機交互平臺的一家公司。
這是我第一次跟大家正式闡述Rokid是一家什么樣的公司。我記得2016年的時候跟董事會去講這個,大家其實還是不大理解AI和AR為什么未來會是一個人機交互的平臺?
但現在已經沒有人去懷疑這件事情。另外大家也可以看到一個發展路徑,就是我們從一些B端產品到C端產品的演進,本質上來講,也正是因為這個行業在很早期,我們必須在很多領域里面進行細致、耐心地打磨,再將它推向消費者市場。
其實到今天為止,我們很多很新的技術,包括接下來我要講到的spatial computing(空間計算), hardware chipset(硬件芯片), algorithm(算法),包括一些 operating system(操作系統),其實都是不斷的在進行打磨中,所有現在驅動這些變革的,大頭仍舊在B端,而不是在C端,我們也不應該讓 C 端來承擔這么高的代價。

一家藏在硬件產品中的軟件系統公司
剛才我跟大家講到Rokid是一家人機交互的平臺公司,但實際上還有一個更簡單的描述,就是——
Rokid本質上是一家藏在精美硬件產品中的系統軟件公司。
因為我自己上一個創業在被阿里巴巴收購之前,是做操作系統的。所以我們是有非常強的操作系統基因。但Rokid現在給大家所感知到更多的是硬件,是我們AR產品,是我們的AR的一個 ecosystem生態系統,為什么會這樣?
因為這個行業特別早期,你需要有一個操作系統,也要有非常堅實的硬件,才能展示它的能力。所以 Rokid 必須從最底層,去構建一套完整的全棧能力。

Rokid也是今天在AR領域里面,在國內、哪怕是在全球,為數不多的擁有全棧能力的一家公司。
首先關于芯片的平臺,其實我們跟很多的芯片公司,包括剛才咱們演講的高通,包括國內像海思,幾乎所有的芯片公司都在跟Rokid討論未來的芯片應該怎么做。甚至有的芯片公司的工程師就是在Rokid辦工的,這也是我們的第一個能力。
我們首席科學家周軍博士本來就是三星半導體研究所的所長,當時三星半導體研究所幾乎有一半的精英加入Rokid。我們自己不做芯片的設計,也不做它的生產,我們更愿意的是將我們的系統和平臺的訴求,能夠告訴行業里走在前沿的這些芯片公司。
作為一個真正的AR 產品公司,我們需要一個什么樣的芯片?包括AI和AR。另外我們要把我們的很多想法、能力變成解決方案、變成產品,給到每一個人,給到我們的客戶/用戶。當然還有現在最熱門的,我們把它叫多模態的AGI。
我們有語音、NLP,有這種生成式的內容。對于 AR 來講還有空間計算,比如說SLAM空間定位等。那么這個跟AI有什么關系呢?Rokid在AI方面的比重特別大,相比其他傳統的AR公司,Rokid幾乎很多能力都是用AI去重新定義和重新去發明過的,包括顯示和硬件設計,這個是大家看得見摸得著的。

AR的五種能力
我們來看AR它涉及的能力。
第一個能力,是感知這個世界的能力。通過傳感器,比如說camera(相機),通過microphone(麥克風)這些傳感器來感知這個世界,這是第一個能力,這個跟半導體就有關系。
第二個能力就是去理解這個世界。當你感知到這個事情,你怎么去理解它?這個理解包括理解客觀的物理世界,也包括理解人、理解人的意圖、人跟人的關系以及他過去的行為習慣諸多的這些東西。
第三個東西是交互。就是當我理解這個世界之后,我怎樣給人用更好的方式,更自然的方式去展現對這個世界理解的結果,以及怎么樣提供有效的、有價值的信息給到用戶,同時用更方便、更自然的方式去做這件事。這就是我說為什么AI和AR會改變未來的世界。
我們都知道現在AI在生產內容,尤其是最近我們看到很多文字、圖片、影像,包括3D的一些模型,這些東西都已經開始通過AI生成,還有很多文字。但這些豐富的內容,最后以一種什么樣的方式給大家進行交互和展現,這個就是 AR 要去解決的這個問題。

第四個是協同。大家都知道在虛擬世界跟真實世界怎么進行融合協同,那人跟人之間在虛擬和真實世界里面如何去協同?原來說社交網絡,通常講的是人和人在虛擬世界里的協同,那現在多了一個維度,就是人要跟虛擬世界的人,同時還有現實中的人(協同),它的復雜度是提升了。雖然只是加了一個場景,但實際上是提升了一個數量級。
最后一個是數字內容創作。這是現在大家比較關注的Web3、 AGI 相關的這些東西,都在第五個能力里面。所以作為Rokid這樣的新一代人機交互公司,它實際要涉及這五個方面的能力。這就是為什么過去 10 年 ,Rokid一直在打造這種全棧的能力。
Rokid:3到5年內把大家的眼鏡換成智能眼鏡
空間計算后面會有很多感性的展示,但我跟大家講,空間計算要回答一些問題,它才會真正進入到每一個人的生活。
第一個當然就是它的實時性。其實現在AGI、AI這些東西比較流行,我非常相信在未來, edge computing 邊緣計算將會變得非常重要,尤其是AI和edge computing。這樣的話就保證它的實時性,因為在空間計算領域里面是沒有太多的空間去留給cloud computing(云計算) 去做延遲的,所以實時性就會變得非常非常重要。
第二個,精度會變得非常重要。我們知道,如果你要做虛實融合,尤其是我們的技術路線是OST(Optical see-through),如何保證這個精度?一旦信息以空間的方式進行展示,對人的理解和處理能力是增加了負擔。我們要知道人類花了可能 10 萬年甚至更久的時間,去將真實的信息壓縮成簡單的信息,比如壓縮成繪畫,壓縮成平面,壓縮成符號,但是AR時代,我們又重新將這些信息進行放大,在虛擬的世界里面進行放大,把數字化搬到我們眼前。
實際上對人來講,如何更好地處理這些能力,其實是一個新的話題。人是不大擅長處理那么多復雜的東西。如何保證新的交互能更舒服、更自然地獲取到這些信息,理解這些信息?對我們來說也是挑戰。
第三個是安全性。因為AR 這個時代,或者我們叫空間計算時代,人幾乎能夠接觸到所有東西,比如說你的物理世界,甚至包括你的意圖,很多東西都是會被科技所掌握。那這個時候你如何保證個人的安全性?我們也要去回答。
第四個是個性化。每個人看到的東西不一樣,每個人用的功能會不一樣,他對知識的理解和意圖也會有所不同,相同的話題他關注的點也有所不同。怎么樣能夠進行個性化的呈現和展示?
在未來的3到5年,Rokid將會有一個使命,就是把大家的眼鏡換成智能眼鏡,所有的眼鏡默認就是智能的,就像現在所有的手機默認是智能的一樣。
你們所在的空間,每個人看到的東西是不一樣的,你關注的東西也是不一樣的,你參照的信息也是不同的。個性化如何做?這也是我們要去充分考慮的問題。

空間計算的本質就是物理世界和數字世界的融合,以及在這種融合的前提下,如何用更自然、更易用的方式進行信息的展示和交流。
這是我們要說的東西。一方面是對物理世界和數字世界的理解、感知、融合,一方面是怎么樣讓人跟這個融合后的世界進行互動。要解決是要解決這兩個問題。
Rokid是OST的堅定信仰者
空間計算是什么?
包括空間的視覺,就是怎么把信息在物理世界里進行布置展示,跟真實物理世界進行互動和融合。也包括空間的聽覺,就是聲音,虛擬的聲音應該跟真實物體的聲音來自一個方向,同樣的力度,模擬它在真實空間里的感受。包括傳統的信息,比如說二維信息、書、瀏覽器。像Vision Pro在年中的時候展示的,舊的生態系統里面的內容,怎么在新的空間里展示,如何進行更有效的交互?
大家都知道二維世界里面的交互是比較簡單的,觸控即所得,所見即所得。但如果你要去操作空間中的物體和空間中的信息,其實是非常復雜的。那Vision Pro眼手聯動,Rokid也有大量的這個東西——微手勢、頭手聯動,眼手聯動也會成為一個大的未來。
這個會長成什么樣?就開始有一個大的分歧,前面都沒分歧。
那今天在行業里面有兩個技術路線,一個是以 Apple 為代表的VST叫 Video see-through,它的本質上來講還是把你包在一個純粹的數字世界,物理世界是通過傳感器可以數字化,把物理世界在虛擬世界里面進行重建。
這是VST 的路線, Rokid是不碰 VST 的路線,我們本質上就不大認可這個路線。雖然這個路線有很多優勢,而且長期的兩者會共存。但是我們堅信的路線還是輕量化,讓大家能夠用肉眼去感知真實的世界,將數字的世界在真實世界進行疊加。有沒有對錯?短期不會有,誰是更好,誰不好,這個還是交給時間去解決。但 Rokid是OST的堅定信仰者,讓人用肉眼去看到真實的世界,是我們的一個底線。
我們在今年8月26號提出的空間計算套裝,這里面用的是高通的驍龍XR 2+芯片,所以它的算力也是非常強的。Rokid從來不講故事,一旦我們講出來的,一定是我們全部完成的東西。
講了這么多,回到咱們今天的主題,Rokid為什么會來這個AI的大會。
首先大家知道 Rokid有一個很核心的技術,我們大概花了四年的時間做的研究成果——就是用one single camera(單目攝像頭)做整個空間識別和 3D手勢。其實你用一個眼睛是沒有辦法感知空間和深度的。原來我們也一直認為這是不可能的任務,實際上到今天為止,仍然有很多人在質疑這個東西,直到Rokid產品扔在他眼前,他才接受了,原來這個是可以做到的。
但這里面沒有黑魔法,只有一個東西,它所有的深度信息靠AI 生成。手的信息,整個空間信息全部靠AI生成。所以雖然它是一個空間計算的技術,但里面有 70%-80% 是用來做AI計算。
one single camera for everything,我們叫 soft define everything,這是 Rokid的一個理念,軟件定義一切。
大家都知道,如果你要做成普通的眼鏡形態,你是沒有辦法往上面堆傳感器的,所以你只能通過軟件定義所有的東西。這個不是 Rokid的技術偏好,是一旦我們選擇了這個路線和我們的理念之后,不得不做的權衡。正是因為這個,我們要付出太多的努力。其實要想得到很好的體驗,最簡單的方式就是堆硬件,堆傳感器,堆成本。

Rokid要做的事一方面是為了做得更輕量化,更重要的還是希望這個技術能夠普惠所有人。我們不想賣幾萬塊錢,我們希望幾乎每一個人能夠用他能夠承受得起的代價得到這個產品。所以這也是 Rokid為什么要選擇這樣的技術路線。但這個技術路線非常難,每減一顆傳感器就要帶來巨大的軟件計算和AI訓練。
得益于最近這兩年邊緣計算在AI ,在端上的推理能力,我相信在未來的一年到兩年,甚至可以做到超過百億規模的大模型,我100%相信。所以 Rokid也是AI在邊緣計算的充分信仰者。
再強調一遍,XR一定是越來越強調邊緣設備上的計算能力。因為大家都知道手機可以有延遲,我劃的慢一點,沒有太大的問題。但如果你在眼鏡上面慢一點的話,所有人在 5 分鐘之內就要暈趴下了。這個是物理上決定的,給我們設定了一個巨大的門檻——它是沒有辦法做 70 分以下的體驗的,甚至沒有辦法做 80 分以下的體驗,這個會非常強調 AI 的能力,在邊緣去處理這些信息的能力。
大家可以看到基于one single camera,我們有厘米級的定位精度——如果帶著這個眼鏡,我在這個空間里面放一個物體,你從外面走一圈回來,這個物體漂移要在厘米范圍內。這個延遲在20毫秒以內,20毫秒就意味著人和信息的互動,它的延遲不能夠高于20毫秒,因為人的延遲感知暈線就在20毫秒,一旦超過,它就會有非常強烈的變化。
手勢方面也是一樣,通過one single camera我們可以做到厘米級的貼合。如果大家來用我們的產品,就會發現你的手和數字的手之間的差別就在一個關節不到,幾乎是貼合的,遠遠超過以前大家所知道的Hololens的手勢精度。
我們只是用了一顆普通的攝像頭,沒有加任何的深度攝像頭去做,全靠 AI 的方式去做。
底層操作系統支撐體驗
回到Rokid 本身的能力,Rokid OS是從AOSP開始,我2007年回國開始做operating system,底層不需要重新造輪子了。AOSP還是安卓的基座,往上幾乎所有能力都做了重建。Rokid可能是現在支持XR的engine(引擎)最完整的一家公司。
我們支持了Cocos、Unity、WebXR以及Hololens的MRTK,還全棧支持OpenXR。因為我們全棧支持 OpenXR,所以很多國內的Graphics engine(圖像引擎)公司比如粒界也和我們有合作。我們也是唯一一個把國內這個閉環最后一個環節走完的公司,我非常自豪地彌補了在OS和Graphics engine之間的空白。
這個是蠻值得大家關注的一件事情,意味著在這個領域里開始有自己選擇的權利。當然上層還有很多的tool(工具),包括最近我們還幫 Unity 做了JS的engine,很多外部開發者可以不需要懂JAVA、C++,就可以用最熟悉的前端語言來進行開發,我們很多開發者大概在一個月之內,就可以完成產品的設計、開發和部署。
這也是為什么我們要做操作系統。大家知道新的體驗最終一定需要新的操作系統去支撐,是沒有辦法在一個舊的操作系統上去補出一個全新的體驗。

“明年XR會大熱”
空間即屏幕。大家如果去我們公司看,這是我正常的工作方式。我已經不用電腦的屏幕,(用Rokid的眼鏡)通常我的空間里面會擺5個屏。基本上就是一個屏幕是瀏覽器,一個屏幕是釘釘,一個屏幕是微信,一個屏幕是我的 source code(源代碼),我自己每天還寫代碼。還有一個屏幕是B站。
在To B的應用里,它可以把指揮中心挪到家里去。不管是工業、政府安保、消防還是醫療,都可以變成這樣,像鋼鐵俠一樣。
這是Rokid 的空間搜索,基本上就是把鋼鐵俠想象的故事搬過來了,這里面也用到了 AI 的能力。
如果大家戴上眼鏡進入空間搜索,說“搜索XR”,或者“搜索Rokid、搜索量子位、搜索AI”,那大家就可以看到在空間里面就會鋪滿這些信息。
這些信息原來的做法在手機上,因為屏幕受限,所以它是一個瀑布流的方式。那現在所有的信息一次性展現在你面前。最相關的離你最近,相關性比較差的較遠一點。當你去選中任何一個當前的信息的時候,它背后的所有信息都會因為你這個動作,根據大模型上下文重新做選擇。也謝謝Microsoft把Bing的這個接口對 Rokid進行了開放,背后也是直接接入了大模型,也是跟這個大會主題又重新結合上了。
接下來我們還會有淘寶的搜索、B站的搜索,都會有這種空間的方式全部加入進來。包括未來它會改變直播,改變短視頻的展示方式個非常非常有趣,這個值得大家關注。

我們還可以幫助大家通過普通的手機,看到AR效果。今天你拿著手機拍一段視頻,就是正常的視頻,沒有 3D 信息,沒有深度信息的視頻,到我們靈境ARMaz平臺上會自動生成3D模型,在這里可以布置成一個數字的樂園。
上傳半個小時之后,就可以看到你家里的3D模型,可以在你家里布置一個虛擬的花瓶虛擬的寵物放一只恐龍放一個虛擬的男女朋友,可以戴上眼鏡,或者用手機可以看到整個空間里的虛實融合的東西。
我們最快部署基本上在半個小時完成,這個技術將會很快在釘釘里面,大概在明年1月份向所有人開發,在座各位如果安裝了釘釘,升級到最新版本,掃碼的上面加了一個icon叫做AR,如果看到,恭喜你們,你們就是最新的版本,就可以玩這個東西了。
另外Rokid也有大量的生態,包括Uinty,包括剛才講到很多開發者都可以參與進來。Rokid在8月26日開放空間計算平臺,開發者社區到現在有2000多個開發者加入,其中有1000多個企業,應該是國內最大的AR開發者的社區了。我們會提供很多能力,多模態交互的能力、原子算法的能力、各種編輯和方便開發的工具,以及多生態的支持。
更重要的是把所有的原子能力對大家進行開放,所有算子的能力,所有算法輸出的單一結果,大家都可以單一拿出來使用,比如只抽取手勢,只抽取一些基礎原子能力和結果來組裝成自己開發的東西,所以我們也有非常多有趣的應用在開發,基本上每天都有新應用上線,這是我非常開心的一件事情。有很多很有趣的東西,有教育的,有醫療的,甚至有很多完全沒想到的,尤其是最近還有人在上面開發出做模擬手術的,真的非常驚人。
Rokid還在做什么,我們有公共服務,我非常自豪,人類歷史上第一個上太空正式服役的AR產品就是來自我們Rokid,產品在工業、企業、文旅等領域都有應用。
國家200多個二級以上博物館,我們有150家合作。教育行業已經有40幾所學校現在開始使用空間計算的方式,對小孩子進行科普教育,一些K12的教育已經使用這樣的方式來做。
Rokid前一陣子比較熱門的東西,就是小孩子戴上AR的眼鏡,在商場里面去玩奧特曼,玩空間競賽的游戲。我們剛剛推出,就破了當時在杭州西溪印象城中庭的使用紀錄,那一天付費的家庭就超過500人。在我今天上臺之前,我們剛剛在常州,一個不大的城市也破了一個紀錄,就同樣是空間計算的體驗展,有超過1萬人使用這個產品,所以它已經開始慢慢進入老百姓的生活。

醫療跟大家講一下,我們現在在醫療手術遠程協助上,已經治療和挽救了幾百人的生命。院前急救,病人在救護車上,醫院的專家直接遠程參與治療方案。
也歡迎生態里面合作伙伴參與到Rokid整個大的玩家生態里面來,期待更多人的參與Rokid。
最后再講一個Rokid的理念,是希望科技用來造福人類,我們希望用新的AI和AR技術來彌補人和高科技之間的隔閡,讓小孩子,讓沒有科技背景的老人都能夠很自然和流暢的使用最新的技術,不管是AGI還是AR,還是科技的能力。
我再做一個判斷,今年是AI的熱年,大家覺得XR是下行的,AI是上行的,我一直跟大家強調XR和AI是一件事情,我可以向大家保證,明年是XR的一個大年,如果不出意外,明年XR的熱度將會強過AI的熱度。
- DeepSeek-V3.2-Exp第一時間上線華為云2025-09-29
- 你的AI助手更萬能了!天禧合作字節扣子,解鎖無限新功能2025-09-26
- 你的最快安卓芯片發布了!全面為Agent鋪路2025-09-26
- 任少卿在中科大招生了!碩博都可,推免學生下周一緊急面試2025-09-20




