只要你的AI算法能比小白鼠聰明,DeepMind的這20萬獎金請拿走
賈浩楠 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
用你的AI算法和小白鼠一較高下,還能贏得3萬美元(20萬元)獎金。
穩賺?快別這么想。
實際情況是,機器學習算法一般都是在給定條件的任務中有較好的表現,但現實情況則要復雜很多。舉例來說,一個老鼠在迷宮中或有遮擋的環境中尋找食物的表現要比一個AI好得多。
DeepMind就以動物認知測試為基礎開發了一套強化學習任務集Animal-AI,用來供開發者測試自己的AI模型實用性。
前兩天,Animal-AI2.0版本上線,并且在Github開源。
AI算法:我不如狗
游戲環境經常被用來評估AI的“能力”。
一般都是給定狀態轉移概率( state transferring probability)和獎勵函數,在這樣的條件下來測試模型表現。
那真實的世界真的是這樣的嗎?
當然不是,真實的世界要復雜地多,在面對復雜任務時,動物的表現往往優于AI。
比如下圖,簡單的把食放在一個透明管中,狗能明白把頭伸進管子里就能獲得食物,而一個強化學習AI完全懵了。
DeepMind研究人員基于動物認知的研究開發了這個測試環境,旨在讓強化學習算法的開發者,通過動物的行為模式中獲得啟發,改善算法性能。
這個項目包含了訓練環境、訓練庫以及900個測試和/或訓練任務。900個任務由淺入深,被分為不同的類別,以反映不同的認知能力。
該環境使用Unity ml-agent建立。其中包含一個固定大小的競技場,和一個已經訓練好的模型。
競技場中包含各種物體,包括正負獎勵(綠色、黃色和紅色球體)、障礙物、雷區、不同的地形等。你的AI任務是在場地中收集正激勵(黃綠球)。
安裝教程
Animal-AI可以在Mac、Linux、Windows上運行,要求Python3。
首先安裝必要運行環境,Github項目主頁提供了不同系統的環境下載:
將安裝包解壓到examples/env文件夾下。Linux系統可能需要先運行一行代碼:
chmod +x env/AnimalAI.x86_64
Animal-AI包里面是一個Unity環境交互應用接口,包括一個gym環境、一個擴展Unity ml-agent環境。通過以下代碼安裝:
pip install animalai
項目還提供一個可以用來訓練模型的包,通過以下代碼安裝:
pip install animalai-train
環境配置好以后,在examples路徑下運行:
pip install -r requirements.txt
啟動jupyter notebook并運行environment和training。
測試實例
這里測試的算法是在2019年Animal-AI Olympic大賽中獲得第一名的算法。
一個簡單的尋找食物的任務:
更進一步,在一個有靜止負激勵的復雜環境中尋找食物,AI面對復雜環境時直接卡死在場地右下角:
讓紅色的球(負面激勵)動起來,AI需要在動態環境中尋找食物:
再增加難度,使環境更復雜,可以看到AI直接卡死在角落里了:
一個Y型迷宮:
工具使用(這個任務中,AI必須使用蹺蹺板才能收集到食物):
這種復雜的任務絕大部分AI都無法完成,不是圍繞紅區直至時間耗盡,就是直接卡死在墻角。
可以看到,低等級的動物行為測試任務,一般的AI都能完成,而稍微加大難度,AI就會「無所適從」,直接卡死,這一系列任務讓不少滿懷信心的AI開發者鎩羽而歸。
項目的開發者發起了Animal-AI Olympics,征集全世界的強化學習AI才挑戰這些任務,獎金高達3萬美元,2019年的比賽已經結束。
可以看到,第一名平均分也只有43.7,在復雜決策,比如避障、因果推理等項目上得分都很低。
組織者還計劃在2021年舉行第二屆大賽,你是否準備好用自己的強化學習算法去贏取這3萬美元了呢?
傳送門
項目地址:https://github.com/beyretb/AnimalAI-Olympics
Animal-AI Olympics比賽詳細信息:http://animalaiolympics.com/AAI/2019
- 中國汽車一哥加持,自動駕駛界「大疆」估值沖破百億2025-11-26
- 神盾金磚電池成功挑戰行業首個“整車+整包”帶電六大極端測試2025-09-02
- 對話吉利技術一號位:VLA大模型打底,沖刺全球最大機器人公司2025-09-02
- 全新嵐圖知音正式上市,20.29萬元起2025-08-28



