「我要出軌了」!伯克利的這個AI,可以預測機器人何時將脫離
一種「以毒攻毒」的方法
金磊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
「脫離」?(disengagement),在自動駕駛系統中是一個重要的指標。
是指當自動駕駛汽車遇到故障,脫離自動駕駛模式,改為人類駕駛員接管車輛的情況。
很多人認為「脫離」次數越少,就能說明一個自動駕駛系統能力越強。因此,以往的研究都會把「脫離」當作是故障來排除掉。
但最近,UC伯克利的研究人員卻「以毒攻毒」,直接用這樣的數據來訓練機器人,預測未來何時將發生脫離事件。
研究人員稱它為LaND——從「脫離」中學會導航。
研究人員表示,通過這樣的方法得到的結果,要比傳統的強化學習、模仿學習都要強。
「開」著小車取數據
老規矩,先來看下訓練數據。
既然伯克利的這項研究是想「以毒攻毒」,那么就必須收集出現故障時的那些數據。
于是,研究人員用一輛Clearpath Jackal機器人做測試。
先讓這個機器人自己在路上「跑」,若是遇到如下三種情況則視為出故障,即開到人行道的兩側或撞到草叢等物體。
當出現故障的情況后,機器人就會進入「脫離」狀態,人類研究員便用遙控器,把它重新置于有效位置,以便讓它再次自主行進。
然后研究人員把在這些過程中,從機器人攝像頭等傳感器獲取的圖像等數據收集起來,作為訓練數據。
投喂到神經網絡做預測
拿到數據,就要開始訓練了。
目的就是用這些數據,來預測機器人在未來是否會脫離。
具體的神經網絡長這樣。
神經網絡先使用MobileNetV2,對輸入的圖像觀測值進行處理,緊接著是一系列的全連接層。
這些圖像層的輸出,將作為遞歸神經網絡LSTM的初始隱含狀態(hidden state),依次處理機器人未來的每一個動作,并輸出相應的預測脫離概率。
預測可視化的結果如下:
在眾多可選路徑中,顏色越深(紅),則表明脫離的概率越高。
性能優于傳統方法
最后,研究人員拿這種「以毒攻毒」的方法,與其它兩種傳統方法做對比,分別是模仿學習和強化學習。
在對比實驗中,三種方法所采用的數據都是一致的,實驗結果如表所示。
非常明顯,當機器人在2.3公里長、從未走過的人行道中行進時,強化學習方法平均每2米就會脫離一次,模仿學習則是平均每13.4米就會脫離一次。
而伯克利提出的「以毒攻毒」方法,效果非常顯著——平均每87.5米才會脫離一次。
作者介紹
這項研究的作者均來自UC伯克利。
△Gregory Kahn
論文一作叫Gregory Kahn,是UC伯克利EECS的一名博士生。主要研究目標是開發算法,使機器人能夠在現實世界中操作。
△Pieter Abbeel
Pieter Abbeel是這項研究的另一位作者,目前在UC伯克利擔任BAIR實驗室的聯合主任。
他的研究致力于建立更加智能的系統,其實驗室推動了深度強化學習、深度模仿學習、深度非監督式學習、遷移學習、元學習、學會學習,以及研究人工智能對社會的影響。
參考鏈接:
https://venturebeat.com/2020/10/15/researchers-detail-land-ai-that-learns-from-autonomous-vehicle-disengagements/
論文地址:
https://arxiv.org/abs/2010.04689
- 戴爾 x OpenCSG,推出?向智能初創企業的?體化 IT 基礎架構解決方案2025-12-10
- 看完最新國產AI寫的公眾號文章,我慌了!2025-12-08
- 共推空天領域智能化升級!趨境科技與金航數碼強強聯手2025-12-09
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06



