任少卿詳解智能駕駛世界模型:一個真實場景,生成萬千平行世界,AI在想象中學習推理
“智駕領域NWM性能強于Sora”
一凡 整理自 NIOIN 2024
智能車參考 | 公眾號 AI4Auto
AI大牛任少卿,發布世界模型。
在蔚來科技日上,蔚來智能駕駛副總裁任少卿登臺,發布了蔚來世界模型NWM(NIO World Model)。
該模型和端到端架構結合,能夠進一步提升算法對復雜場景的處理能力。
NWM類比人腦,具有想象推演和想象重建能力,可以根據一個真實場景,生成一萬個“平行世界”。

以下為任少卿演講全文
成績回顧
我是任少卿,來自蔚來的智能駕駛研發團隊,很高興第二年與大家在NIO IN見面。
去年NOI上,朋友告訴我故事說得不錯,技術做得也不錯,但是講的人話不太多,所以今年爭取講一些大家能聽懂的。
去年我們發布了蔚來的全域領航輔助 NOP+,通過線路共享、匯線成網的方式,做城區的開通。從去年9月到今天,全域領航輔助NOP+已經開通了非常多城市,389.9萬公里已經覆蓋。可以看到,我們的蔚來用戶是一群非常喜歡自駕也非常喜歡開車的用戶。
所有前面這些道路開通,這樣的里程實際上都要得益于底層的群體智能系統,在過去一年幫助了我們很多。我們實際的車云算力有高達287100POPS,4.2億公里的實際道路驗證里程,在這4.2億公里里面,每個月都可以發現2.2億個樣本去幫我們做相應的問題發現,幫我們做相應的問題解決和迭代。以上所有幫助我們的行車以及安全的功能持續地在快速迭代和演進。

其實智駕已經進入了一個新的階段,除了城區的開通,今年越來越多地說端到端的架構。出門的時候,做技術的同學會問一問你們的端到端上車了嗎?你上的是哪種端到端?實際上我們265的版本上已經上車了。首先要技術升級,安全落地。265的版本上,基于端到端架構的AEB功能,已經在很多用戶的車上。去做這個主動安全,其實最大的挑戰是需要去覆蓋真實的場景,同時又要去減少誤制動。大家看到的是法規的場景,它是一些平行、垂直的場景,前面有輛車,正向向它開著的時候,車能剎住。
法規在最新的法規標準上加了一些轉彎的場景。
但是對標真實的場景,法規的場景還是遠遠簡單。我們去統計了相應的數據,法規場景只能占真實世界場景的10%。
如何解決真實世界的復雜性?
真實世界的復雜性怎么去解決它,使得大家更加安全,才是我們要做的。解決這個問題實際上需要有新的技術。我們引入了端到端的、主動安全的技術,通過這一技術,在路口無論兩輪車從什么角度切入,我們的車都能在安全的地方剎停,如果有必要的話。這背后其實是一個技術的升級,同時也是對于數據的巨大的挑戰。實際在應用里面,我們收集了20億公里真實的駕駛場景事故。平均有一萬個事故。同時我們有10輪4億真實道路驗證,所有這些事故的、驗證的數據,加起來賦能我們端到端的主動安全。剛才是比較感官的視頻,這里是比較真實的數據。AEB所覆蓋的場景比標準AEB覆蓋的場景高達6.7倍之多。基于整體端到端的架構,我們會把主動安全升級成蔚來智能安全輔助2.0。它里面就包括我們端到端的AEB,也包括后面會推出的端到端的GOA,大幅提升了我們響應的場景。之前智能響應講法規的場景非常多,現在可以相信真實的場景,真正從標準場景走向真實世界里面的解決這些復雜的問題。除了覆蓋場景變多,我們最大剎停速度也在持續提升。現在主動安全的端到端AEB已經上線,端到端GOA,不標準物體的也會持續上線。2.0會幫助大家開得更安全。

前面主要介紹功能,功能背后說了很多端到端的功能,實際上是算法的提升。傳統的主動安全為什么做得這么困難?剛才說了要去解決真實的場景,同時它又要做到非常非常小概率,十萬公里以上,才能有一次誤剎,否則會帶來非常大的困擾。傳統通過感知算法的提出,在后面讓人工去針對一個一個的場景去寫規則,這些場景怎么處理。法規場景可以去計數,但是真實場景千千萬。對于真實場景,讓研發工程師一個一個寫規則已經不可能了。所以我們需要去升級這個算法,使它變成端到端的。從人工寫規則解決問題,研發工程師一個人分多少個case,變成一個模型收集數據,數據去教模型解決問題。基于這樣一個端到端的算法,剛才看到了它的性能提升非常大。
總結來說,實際上有兩大優點。第一個是從人工的寫規則變成了模型,依靠模型和數據去做迭代。能充分地利用這個數據。第二個就是我們前面所說的,在人工寫代碼的過程中有很多信息的損失,基于模型能自動地抽取信息,減少了很多信息損失。使得我們對于數據的利用更加充分。但是,我們還想回答一個問題,大家都在說端到端。到底端到端夠了嗎?以及我們人在開車的時候或者在做其他事情的時候,它還有沒有一些其他的、跟端到端不一樣的、比它更強的能力。我們的車,車上智駕的智能體是不是也能學會這些能力,使得它開得更好?
好的,我們帶大家做一個實驗,我們是一個冥想實驗。請大家坐坐好,閉上眼睛。像NOMI一樣,天黑請閉眼。好的,我們一起想象,有一棵樹,這棵樹生長了十年,枝繁葉茂。現在是個夏天,夏天的午后,太陽曬在樹上,微風吹過,發出沙沙的聲音,時光荏苒,三個月很快過去。從夏天到了秋天,秋天的樹一片金黃。又過了三個月,從秋天到了冬天。下雪的日子里,樹上一片雪白。好的,感謝大家,我們睜開眼從大家想象的世界,回到現場,回到現實世界。
實際上剛才是一個大腦的探索之旅。大家之前可能不會意識到,其實我們做的時候,每一個做AI的人都會感嘆人類大腦的能力。這里面我們顯示了一個人類的大腦。從左邊的眼睛,往上到藍色的區域是下丘腦,到黃色的區域是大腦皮層。
它建立了一個叫做內在模型的大腦模型。這個有什么用呢?就像剛才我們大家所感受到的,當我們閉上眼的時候,雖然眼前沒有這棵樹,但是大家的腦海里面出現了一棵樹。
而且看起來還很真實,這是第一個。第二個晚上睡覺的時候,會做夢,夢里面會出現各種各樣的場景,那是你平時遇到的,或者很多年前遇到的。我昨天晚上準備PPT的時候,躺在床上,也浮現了第一頁大概什么樣,第二頁大概什么樣。相信大家都會有這樣的經歷。
這是第二個例子。第三個例子,我們走在家里的小區的路上或者你平時經常走的路上,那時候可能也沒太在看這個路,在打電話或者在吃東西。但是實際上這條路上旁邊會有什么,大概的路的形狀是什么樣,在你腦海里面一清二楚,早就建立了整體這個路的所有形狀。
總結來說大腦有兩個非常核心的能力。第一個能力是空間理解能力,也叫想象重建能力:就是剛才跟大家說的,我們要想象一棵樹的時候,你并沒有看見它,但是你的眼前就出現了。
第二個能力是時間理解能力,或者叫想象推演能力:想象一棵樹從夏天變成秋天,從秋天變成冬天,它在你的腦海里面,時間的變化。現實中六個月的時間變化,在你腦海中兩秒鐘就完成了,時間的變化在你腦海里面完全被重構。
這兩個能力合起來構成了我們說的時空的認知能力——對于我們生活的三維空間和一維的時間所發生的所有變化和可能性的認知能力。這個能力對于我們人類來說,生活在這個地球上非常重要。對于我們的智能體來說,如果去開車的是一個機器人,也同樣重要,我們去建立了一個在它的腦海里面的,能夠構建抽象的世界的能力。它是符合相應的規則規律的,尤其是物理規律,也叫時間模型。
我們認為聰明的智能體需要像人一樣,具備空間認知、想象重建,以及時間認知、想象推演的能力。但是回到那個問題,端到端就夠了嗎?我們認為是不夠的,因為端到端的模型并不必然具備剛才我們說的這兩個核心能力。我們希望去構建一個模型,它像我們人類的大腦一樣,有這樣的內在模型,有這樣的對于空間的想象、對于時間的推演能力。實際上在我們去年NIO IN上已經說了,有這樣的世界模型的模塊在。經過一年發展,可以跟大家聊一聊這一塊的工作,我們準備在接下來的日子里面把它們進行量產。總結一下,蔚來世界模型NWM——NIO World Model就是這樣一個東西。希望這個模型學到人對于空間的認知,做想象重建,以及對于時間的推演。
蔚來世界模型NWM介紹
第一個部分學會對于空間的認知,要想象重建。我們認為重建是對于這個空間理解的最高表現。回到剛才大家想象的這棵樹,這是一棵真正的樹的圖片。
有些人想的是這樣,但是應該很少,想得不太豐富。還有更加豐富的信息會變成這樣,樹苗,它想象的信息更多了,說明對于空間的理解更多了。相信在座的各位想象的至少是這樣,它是一顆會動的、非常真實的、實際存在的樹。當然也是我們所說的Banyan。會動的樹,對于我們來說,代表了大家對這個樹非常熟悉。第二有非常強的想象重構能力,第三對空間認知很深,也是特別聰明的智能體。
我們希望模型干這件事。怎么干呢?我們簡化了模型的輸出,希望模型能輸入視頻也能輸出視頻。輸入一個樹,輸出一個會動的樹。輸入一個真實世界的行車視頻,輸出另外一個更平行的世界。這是我們模型的基本能力。
實際上智能駕駛的發展過程都是在做空間理解的升級。這是大家最初看到的原始的視頻,很清楚。
五年前的智能駕駛算法,把一個視頻變成了剛才大家看到的這樣,底下有框有線。車是一個框,地上是車道線。提取了信息,但是不是很多。

后來,算法演進了。我們把BEV的算法提出來,提取的信息并且比五年前要多。但是它實際上還缺了路邊沿的信息。我們又推出了OCC,從2D信息的表達變成了3D,有點像小時候打的馬賽克游戲,信息豐富了非常多。
但是如果我們對比一下OCC的視頻和真實世界的視頻,實際上還缺了信息。比如路上的材質,比如現在是下雪天,比如細小的物體,這邊進入一個收費站,有一些抬桿,就不會有。
OCC已經很好了,但是還是不夠,對于空間的理解已經不錯了。我們希望它能進一步加強,進一步加強是什么呢?
我們對于整體的世界做再一次的重構,變成類似于原始的信息。視頻右下角標了。這是蔚來世界模型NWM生成的世界,是模型想象出來的。它看到了右邊真實的世界,想象出來一個平行世界。從信息抽取的角度來說,我們覺得它是一個更加終極的狀態。智能駕駛整體技術發展史,實際上是算法的空間理解能力的進化史。
有了重構的能力,意味著算法模型可以對真實世界有更深的理解。
真實世界就像剛才大家所想象的樹一樣,每個人想得不一樣,有的是榕樹,有的是松樹。我們希望模型也能干這件事,這個模型就去學習了,去生成了。這是雨天、雪天、夜晚的時候、白天的時候以及其他的所有的場景,包括我們的城區,我們的高速,我們的小路。這些視頻都是模型生成出來的,并不是真實的視頻。
前三秒是真實的視頻,后面所有都是模型生成出來的。相當于模型看了很多很多視頻,學習了真實世界的千萬種可能,在它的腦海里面想象重構出來。它能想象出來,其實某種程度上代表它具備了解決這些場景中駕駛問題的能力,有了把這個場景開好的基礎。
世界模型的優勢
前面說的想象重構,我們說了比較多的視頻例子,實際上從算法端來講,架構還有額外的好處。第一個,它是一個自監督的過程,不太需要數據標注,更高效,我們可以比較容易地做到千萬級的數據收集。第二個是重建的視頻,任務更困難,監督信息更多,收集速度更快。前面是我們說的第一個能力,想象重構的能力。
第二個,我們還希望在時間維度上去做推演,從秋天到冬天,去想象它的變化。我們認為這個想象變化的能力才是大家對于時間乃至時空的真正理解。想象的真實度和豐富度,大家對于這個理解深度的體現。去年Sora大火,整個Sora生成視頻模型,為什么轟動世界?總結幾點。

第一個生成視頻看起來真實。第二個生成的各種場景都可以。第三個相比于之前的很多算法,生成視頻長度多了很多。物理的模型,時空的認知雖然不是很完全,但是這確實是人工智能方向界的進步的一大步。我們希望蔚來世界模型NWM也能夠做想象推演。除了前面所說的,輸出圖片,我們也希望模型持續地去想象,持續地以自回歸的方式去輸出視頻,在時間維度上去做推演。這個是我們的模型生成的一個長視頻,這個視頻兩分鐘以上,實際上是超過了現在絕大多數的視頻生成軟件。對于駕駛環境,即使它開得很慢,30公里每小時,兩分鐘也開了一千米以上。這體現了需要生成非常復雜的背景,非常復雜的變化,后面還有堵車的場景,真實多變,同時符合真實的物理規律。
它就使得我們這個模型對于這個時空的理解更深。這是表現。內在理念,為了做好這件事情,有非常多的困難。第一件事情需要想象重建的能力更精確,依賴于模型的好,也依賴于數據的真實和數據的多。這跟人其實有點像。大家對很熟悉的場景,比如樹每天都能看到,你想象的時候就會非常具體、非常真實。如果是一個每天看不到的事情,一年兩年只能接觸一次,想象的時候就非常模糊。模型也一樣,需要大量的數據去進行學習。
第二個,它是一個很長的視頻,我們希望在時間軸上能夠做到很好的連貫,因此需要新的算法,開發了新的時空encoding的方式。其他還有工程上的困難,今天不過多說了。主要在數據訓練和內存上。這是我們現在看到的在智能駕駛領域,去做這個視頻生成最好的模型。在這個領域,比Sora的性能還好,我們是領域內的一個模型。
除了做這樣的讓模型去想,想得很長。大家剛才看視頻,跟我們人類做夢或者是你閉著眼想象,畫面挺像的。但是除了我們希望它開放式地想象,也希望它能接受我們一些指令。
比如我們在這里面加入了我們的智駕相關的指令,包括左轉右轉、左變道、右變道等,以及任意打方向盤的角度、控制速度等微觀細節。我們可以讓模型按照我們的控制,去進行這個想象的行為。
這里實際上是一個視頻,中間是我們的真實視頻。我們讓模型按照我們想要的方式,去想象了這個世界的一萬種平行世界的可能。中間是我們跟著一輛紅色的卡車,它開得比較慢。我們希望看看,是不是有可能從左邊變道超過去,或者跟在它后面,所有這些可能會是怎么樣。

實際上這里面我們只列了模型生成的非常多種可能性中的很小一部分。它能想象萬千的世界。這些想象都比較真實,同時又很多變。覆蓋了我們在開車的各種場景。我們認為這樣的一個模型,它對于時空的變化理解已經很深刻了。它能想象出來萬千世界,也能從萬千世界里面找到最好的一種開車的方式,最安全最舒適。或者是最高效,開得快一點。
因為我們前面一個星期跟同事在聊,大家看了這個之后,想到了一個很有意思的場景。前兩年有一個很火的題材,無論是視頻、電視劇,有一個很火的題材是穿越。《開端》是兩年前很火的一個作品。主角遇到了公交車爆炸,他在公交車爆炸之前穿越回另外一個平行世界,去找到可能的解決的辦法,讓他不停穿,看看能不能找到逃生的機會。實際上在我們的蔚來世界模型NWM里面也能做這件事情。平時開車的時候不小心有一些剮蹭,我們可以讓模型穿回到事故前的三秒鐘,讓它去看看如果遇到這種場景,它能怎么做。我們完全沒有教這個模型急剎車、打一下方向盤避讓之類的能力。量產的對于高速場景的功能,經過很多人工調校都還是比較稀有的能力。這個模型只是看了視頻自然而然地學會了。左邊這個場景踩個急剎車,右邊這個場景打了方向盤,去穿越到了一個更安全的世界。
前面是我們兩個非常非常重要的人腦的能力。想象重建去做這個空間認知,想象推演去做時間認知,合起來是我們的時空認知。所有這些拼起來,構成了蔚來世界模型NWM的最核心的能力和它的大腦。
最終我們其實還是一個智駕的模型,有這樣的空間、時空認知能力,最終希望的是它能夠去開車,去輸出它規劃的軌跡——怎么去開這輛車。有了軌跡規劃的能力之后,我們就在生成的同時讓它想象在一個平行世界里面,去看看這個車應該怎么開。這里面圖像、視頻,中間綠色的點就是它的駕駛軌跡。
圖像的右上角,是有期望的方向盤的角度以及速度。基于這樣一個想象的世界,很容易就可以學會怎么去開這個車。實際上而言,蔚來世界模型NWM的腦海里面,每0.1秒會生成216種可能的軌跡,并對每一個軌跡進行評估,選出來最好的。下一個0.1秒,蔚來世界模型NWM會根據外界信息輸入去更新,再生成新的216種軌跡,再往前開。以上是我們的想象重構、想象推演、軌跡規劃,構成了蔚來世界模型NWM。更多細節,后面有機會再跟大家展開。
相比于常規的端到端的模型,新的世界模型有三個我們認為主要的優勢。第一個是在空間理解上,通過生成式模型,從重構傳感器的方式,更加泛化地抽取了信息。通過自回歸模型,自動建模長時序環境。第三個,萬千世界需要更多數據,通過自監督的方式,無需人工標注,它是一個多元自回歸生成模型結構,讓我們學得更好。以上整體的介紹就是我們的蔚來世界模型NWM——NIO World Model。
有了新的模型之后,它的能力很強。它就更吃數據,尤其是一個世界模型,需要更多數據。
真實數據并不是那么容易獲得,包括大語言模型,包括機器人。實際上我們認為智能駕駛是這些所有AI應用里面數據閉環最為成熟的,但是最有可能做大規模的安全性應用落地的。在我們的體系里面,群體智能和生成式仿真是數據層面的殺手锏,它可以滿足整體的世界模型的數據需求。
群體智能今天介紹了很多,在這樣一個場景里面,因為我們有大量的量產車,可以把蔚來世界模型NWM的版本去分發到十萬輛級的量產車上。可以對比人類駕駛的狀態,也可以去對比前面的穩定版本,雖然沒有這么聰明,但是它更穩定,是生長得更成熟的智駕方案的結果。看看開得好的場景是什么,拿到智駕場景。同時可以把仿真數據更好地去教這個模型。
我們來看看仿真是在干嘛。這個是使用了真實的視頻去重建了世界。它可以切換到任意角度,可以去分析現在的細節信息,這里面是深度。分析了所有數據之后去重建三維世界,這個車已經不太去開原來的軌跡,可以回到任何軌跡,去重建這個世界。同時這些動態的物體可以根據我們所需要去動態地編輯。
所以,所有的這些實際上讓我們有了一個能力,去基于這個真實世界的視頻去重建一個虛擬的可以任意編輯的世界。大家之后看到這個左邊的標記,就是蔚來Simulation的結果。仿真的生成結果給我們提供了更多可能。有什么用呢?我們的蔚來世界模型NWM,原始視頻去想象接下來可能發生的結果。
它可以想象很多,這里面舉的例子,想象了左轉、直行、右轉的情況。真實世界只有一種情況,真實世界是直行。蔚來世界模型NWM,把真實世界直行的結果和它想象出來直行的結果,做驗證、做對比、做學習。只有一個真實世界能去讓它學習。但是有了剛才說的蔚來Simulation的仿真之后就不一樣了。蔚來世界模型NWM可以想象出千萬種可能,仿真也可以根據它的想象,根據輸出的軌跡,去生成千萬種可能。所有一一去做對比,可以在千萬個變化的世界里面去共同地驗證模型,去訓練這個模型。讓萬千世界想象的結果更真,讓它駕駛的輸出更好。
這里是一個真實的例子。蔚來世界模型NWM想象了各種可能性,在仿真世界里面按照它的軌跡去開。我們一一在平行世界里面去做對比,使得這個模型學得更好。以上我們說的,多元自回歸的生成模型——蔚來世界模型NWM,端到端的主動安全模型,以及相應的處理機制和安全機制。構成了我們算法的第二代的架構。相比于去年的架構,有了天翻地覆的變化。基于全新的架構,也把我們產品端的功能收斂到兩個產品,一個是點到點的全域領航2.0,第二個是智能安全輔助2.0。這兩個功能會持續地為用戶提供更輕松、更安全的行車體驗。
基于新的架構,新的這兩個功能,點到點的領航輔助功能下半年會上車。智能安全輔助2.0的功能,端到端AEB已經在265上車。包括端到端GOA也會持續上車。剛才說的很多模型實際上都是非常新的,包括生成式的模型,世界的模型,AI技術一日千里,這些模型對于算力的要求更高。4個Orin-X的平臺,ADAM的平臺有充足的算力儲備為用戶提供長期的領先體驗。同時,我們剛才所推出的神璣 NX9031 芯片,匯聚了芯片同事、智駕同事的很多智慧和心血。天生為了我們這樣的世界模型而設計。值得大家更多的期待!
以上所有的技術的提升和產品的升級,都是為了我們的核心的目標和價值,就是解放精力,減少事故,讓大家開車更輕松更安全。
謝謝大家!以上是我們智能駕駛的最新進展的介紹。
- 豐田旗艦,用上華為車機2025-11-21
- 對話周光:特斯拉路線能Scaling Law,Waymo到今天也在發展2025-11-19
- 奇瑞發布「安徽版享界S9」,世界模型加持,攜手Momenta挑戰云南山路68彎2025-11-16
- 上海旗艦SUV太有生活了:自帶地暖,32萬開賣2025-11-13



