用AI實現隔墻“透視”,準確率達97%,這家中國公司研究入選CVPR
一家來自中國的AI創業公司合刃科技,嘗試用墻壁散射的光去復原被遮擋數字,正確率最高能達到97%,整個過程不需要1秒,更適合用在需要實時處理的自動駕駛。
曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
試想一下,自動駕駛汽車行駛到了拐彎處,即使激光雷達再強大,也無法探測到建筑物后的有什么事情發生,如果是突然有行人沖出來,后果不堪設想。
其實用激光結合強大的AI算法,可以幫你看到墻后究竟有沒有人,甚至還能看出他的姿勢。
最近,一家來自中國的AI創業公司合刃科技與華中科技大學、斯坦福大學等合作,嘗試用墻壁散射的光去復原被遮擋數字,正確率最高能達到97%,整個過程不需要1秒,更適合用在需要實時處理的自動駕駛。
他們的論文《Direct Object Recognition Without Line-of-Sight Using Optical Coherence》已被CVPR 2019收錄。
之前,量子位介紹過一種可以用墻面反射的復原屏幕內容的方法。而合刃科技提出的方法不需要復雜的圖像重建過程,不僅能恢復簡單的圖像,甚至還能推測人體的姿勢。
隔板猜物
研究人員給算法出了道難題,讓它從拍攝白墻上的畫面,推測黑色擋板背后屏幕上的內容。由于被拍攝物體和相機之間有不透明的障礙物,因此相機只能采集到擋板上漫反射的光。
上面的布局太復雜,簡化后的示意圖如下:
除了這種比較簡單的情形,研究人員還給算法出了兩道附加題:讓激光來回反射繞過兩堵墻,甚至還設計了一種“旋轉的墻壁”。
由全息照片猜數字
激光與我們日常見到的日光、燈光不同,不僅能記錄強度,還能記錄相位信息,通俗地說就是能記錄被拍物體的立體信息,與全息照相類似。
當攜帶MNIST數字信息的相干光經過擋板漫反射后,形成散斑圖。雖然由散斑圖復原物體有困難,但是可以用AI算法,對障礙物后面的數字變化進行實時識別。
僅僅能識別數字圖像還不行,研究人員還嘗試從散斑圖找到中得到墻后面隱藏的人,已經他正處在什么姿勢。
在處理圖像時,AI算法用了兩個網絡:
1、SimpleNet,它用來對10個數字圖像進行分類,包含4個卷積層,完全連接層中由1024個神經元。
由于全息圖像的每個區域都包含被拍攝物體的全部信息,為了減小計算量,研究人員只選取照片中200×200的一小塊區域,從拍攝的1萬張照片中選取95%作為訓練集,5%作為數據集。
2、ResNet-18,它用來對人體姿勢進行分類。輸入圖像被裁剪至224×224。
準確率最高97%
在識別MNIST手寫數字的實驗中,算法的平均識別準確率均在91%以上,最高可達97%。
通過深度學習的AI算法處理,研究人員對12個人不用的10種姿勢進行識別,得到的平均識別準確率為78.18%。
論文鏈接:
https://arxiv.org/abs/1903.07705
- 腦機接口走向現實,11張PPT看懂中國腦機接口產業現狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現場狂做筆記2022-03-11
- 阿里數學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數據2022-03-05




