“跨次元”目標檢測模型hold住各種畫風,真人賽博恐龍梵高畫作都能識別,復旦校友一作,在線Demo可玩
可識別20000+種物體
蕭簫 發自 凹非寺
量子位 | 公眾號 QbitAI
目標檢測種類多達20000+種的AI,你見過嗎?
不僅準確“揪出”每個物體所在的位置,分類效果非常準確:

插畫版賽博恐龍也沒問題:

甚至還能檢測雜志封面甚至漫畫中的物體!

這也是把目標檢測給玩出花來了,據作者表示模型在長尾問題等細節上的處理非常好,像獅子和狐貍這種少樣本也能準確識別:

這項研究來自Meta AI和德克薩斯大學奧斯汀分校,一作是著名目標檢測框架CenterNet的作者、復旦校友Xingyi Zhou。

一起來看看。
可識別“跨次元”物體
這篇論文提出了一種新的名為Detic的方法,用來解決目標檢測無法用到圖像級標簽(給一整張圖打標簽,標注里面有什么物體)的問題。

此前的目標檢測方法,通常是一個檢測框里一個物體:

這種方法有一個問題,就是沒辦法利用整個圖像級標簽,只能用單個物體的圖片進行訓練。

也有一些研究想出了一種新方法,搞個弱監督學習,試圖讓AI自己學會將圖像級的標簽,去對應錨定框里面有什么物體,但實際上這種方法的效果也不太好。
Detic的方法是采用目標檢測數據(a)和圖像標簽數據(b)對Detic進行混合訓練。
其中,在用目標檢測數據訓練Detic時,同時對圖像分類模塊W和目標檢測模塊B進行訓練,但只用標簽數據對圖像分類模塊W進行訓練。

訓練的數據集采用的是ImageNet,事實證明模型在訓練后無需微調,就能很好地適應到LVIS等數據集,相對之前的一些模型都達到了不錯的效果:

論文表示,Detic能分類的圖片類型也是多種多樣,從真實照片到賽博恐龍插畫這樣的“跨次元”作品都能識別:

這立刻吸引了不少網友來玩。
在線Demo可玩
有網友用梵高的世界名畫試了試。

放大一點來看,藝術加工后的椅子、人和桌子也能被識別:

還有用二次元的龍貓進行識別的,除了龍貓本身被錯認成貓頭鷹以外,其他的雨傘和靴子都認得不錯:

我們也隨便用一個鐘表柜的照片試了試,在線Demo的檢測時間稍微有點久,大約需要6分鐘左右,但效果還不錯:

細看的話還是能發現一些瑕疵,例如把部分手表誤認成轉速計、以及懷表和時鐘,以及也有一兩塊手表沒有被檢測出來。
不過,即使在二次元和插畫中,這個AI能識別的物體,至少也需要在真實世界出現過。
例如,超出20000個分類的物體,如噴火龍和皮卡丘,就不在AI的監測范圍內了,全部被認成了猴子(狗頭):

將這些二次元角色也加入AI訓練數據集中,不知能否取得同樣的檢測效果。
作者介紹
△這張照片是“女朋友拍的”
論文一作Xingyi Zhou,目前在德克薩斯大學奧斯汀分校讀博,本科就讀于復旦大學計算機系,之前也是CenterNet論文的第一作者,項目在GitHub上目前已經收獲6.1k Star。

Rohit Girdhar、Armand Joulin和Ishan Misra,Meta AI的研究科學家,主要研究方向是機器學習和計算機視覺,此前Armand Joulin曾經在李飛飛的實驗室進行博士后工作。
Philipp Kr?henbühl,德克薩斯大學奧斯汀分校助理教授,Xingyi Zhou的導師,研究方向是計算機視覺、機器學習和計算機圖形學。
感興趣的小伙伴,趕緊試試你想玩的漫畫、或是雜志插畫吧~
Demo地址:
https://huggingface.co/spaces/akhaliq/Detic
論文地址:
https://arxiv.org/abs/2201.02605
參考鏈接:
[1]https://www.cs.utexas.edu/~zhouxy/
[2]https://twitter.com/ak92501/status/1480704961101148162
- 首個GPT-4驅動的人形機器人!無需編程+零樣本學習,還可根據口頭反饋調整行為2023-12-13
- IDC霍錦潔:AI PC將顛覆性變革PC產業2023-12-08
- AI視覺字謎爆火!夢露轉180°秒變愛因斯坦,英偉達高級AI科學家:近期最酷的擴散模型2023-12-03
- 蘋果大模型最大動作:開源M芯專用ML框架,能跑70億大模型2023-12-07




