900萬注釋圖像數據集升級了！谷歌開放Open Images V6，首增語音、文本、鼠標軌跡同步注釋

魚羊 2020-02-27 13:09:32 來源：量子位

魚羊發自云凹非寺
量子位報道 | 公眾號 QbitAI

谷歌的900萬注釋圖像數據集Open Images，再次進化。

這一次的V6版本，不僅增加1400種視覺關系注釋類型，新增2350萬個經過人工驗證的圖像級標簽，包含250萬個人類動作注釋，還更新了新特性局部敘事（localized narratives）。

所謂局部敘事，是一種全新的多模式注釋形式，包括所描述對象的同步語音、文本和鼠標軌跡。

△圖源：谷歌博客

在Open Images V6中，有50萬圖像適用這一模式。

同時，谷歌也發布了COCO數據集的完整12.3萬圖像的局部敘事。

局部敘事

Open Images的這一次升級，重頭戲就在于加入了局部敘事。

在Open Images V6中，新增了507444個局部敘事。

谷歌表示，這部分注釋數據里，鼠標軌跡總長度約為6400公里；要念完所有的文本敘述，需要1.5年時間。

在研究、利用視覺和語言之間的聯系時，通常會使用圖像字幕，即圖像及其描述文本之間的配對。

那么問題來了，文本中每個單詞都對應到圖像的哪一個部分呢？

局部敘事，這時就派上了用場。

這些注釋由注釋人員完成。注釋人員在念出圖像描述文本的同時，會將鼠標移動到單詞對應的圖像區域上。

并且，他們會手動糾正自動語音識別結果，確保語音、文本和鼠標軌跡三者對應正確且同步。

另一個有趣的應用點是，這些圖像為探索人們描述圖像的方式提供了潛在的研究途徑。

因為谷歌并沒有指定注釋人員要用什么方式去移動鼠標，所以在這些注釋中，你可以看到不同的指示對象的方式。

這可能會為新用戶界面的設計帶來靈感。

新的視覺關系，人類動作和圖像級注釋

除了局部敘事，Open Images V6還新增了大量新的視覺關系和人類動作注釋。

比如在一張狗狗叼飛盤的圖像中，除了狗狗和飛盤會被各自標記出來，“捕捉”這個動作也會被標記出來。

而對計算機視覺而言，理解人的行為也是一大研究重點。于是，Open Images V6中現在一共包含250萬個人類動作，比如“跳躍”、“微笑”、“躺下”等等。

并且，在添加了2350萬個新的經過人工驗證的圖像級標簽后，Open Images V6里的圖像級標簽達到5990萬個，涵蓋19957個不同類別。

目前，Open Images V6共包含：

600種類別的可框住對象子集。包含1,743,042張訓練圖像，41,620張圖像的驗證集和125,436張圖像的測試集。
19,958種類別的圖像級標簽子集。訓練集包含7,337,077張人工驗證的注釋圖像和8,949,445張機器注釋圖像。
完整集合包含9,178,275張圖像。

關于Open Images

Open Images是谷歌在2016年推出的大規模圖像數據集，包括大約900萬張圖片，標注了數千個圖像類別。

2019年，谷歌釋出Open Images V5，新增了對圖像分割掩碼的注釋。分割對象樣本近280萬個，覆蓋350個類別，成為最大分割掩碼數據集。

并且從2018年開始，谷歌就基于Open Images數據集發起了系列挑戰賽。

谷歌希望，通過Open Images V6，能進一步刺激人們對真實場景的理解。

傳送門

Open Images V6下載地址：https://storage.googleapis.com/openimages/web/index.html

谷歌博客：https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html

— 完 —

數據集谷歌

魚羊

900萬注釋圖像數據集升級了！谷歌開放Open Images V6，首增語音、文本、鼠標軌跡同步注釋

△圖源：谷歌博客

局部敘事

新的視覺關系，人類動作和圖像級注釋

關于Open Images

傳送門

相關閱讀

谷歌用新AI超越自己：讓Imagen能夠指定生成對象，風格還能隨意轉換

谷歌版小鋼炮開源！0.27B大模型，4個注意力頭，專為終端而生

谷歌急投20億押注ChatGPT「最強競品」，GPT-3核心成員出走打造，多方出擊抗衡微軟

說人話，搜代碼，Facebook發布神經代碼搜索數據集+benchmark

為了不把黑人兄弟認作大猩猩，谷歌的算法連真的大猩猩都不認識了

谷歌母公司Alphabet發布三季度財報：凈利潤同比下降23%，低于市場預期

熱門文章

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

GPT5.5代號“蒜你狠”曝光！OpenAI拉響紅色警報加班趕制新模型，最快下周就發

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術報告還是老外看得細