900萬注釋圖像數據集升級了!谷歌開放Open Images V6,首增語音、文本、鼠標軌跡同步注釋
魚羊 發自 云凹非寺
量子位 報道 | 公眾號 QbitAI
谷歌的900萬注釋圖像數據集Open Images,再次進化。
這一次的V6版本,不僅增加1400種視覺關系注釋類型,新增2350萬個經過人工驗證的圖像級標簽,包含250萬個人類動作注釋,還更新了新特性局部敘事(localized narratives)。
所謂局部敘事,是一種全新的多模式注釋形式,包括所描述對象的同步語音、文本和鼠標軌跡。
△圖源:谷歌博客
在Open Images V6中,有50萬圖像適用這一模式。
同時,谷歌也發布了COCO數據集的完整12.3萬圖像的局部敘事。
局部敘事
Open Images的這一次升級,重頭戲就在于加入了局部敘事。
在Open Images V6中,新增了507444個局部敘事。
谷歌表示,這部分注釋數據里,鼠標軌跡總長度約為6400公里;要念完所有的文本敘述,需要1.5年時間。
在研究、利用視覺和語言之間的聯系時,通常會使用圖像字幕,即圖像及其描述文本之間的配對。
那么問題來了,文本中每個單詞都對應到圖像的哪一個部分呢?
局部敘事,這時就派上了用場。
這些注釋由注釋人員完成。注釋人員在念出圖像描述文本的同時,會將鼠標移動到單詞對應的圖像區域上。
并且,他們會手動糾正自動語音識別結果,確保語音、文本和鼠標軌跡三者對應正確且同步。
另一個有趣的應用點是,這些圖像為探索人們描述圖像的方式提供了潛在的研究途徑。
因為谷歌并沒有指定注釋人員要用什么方式去移動鼠標,所以在這些注釋中,你可以看到不同的指示對象的方式。
這可能會為新用戶界面的設計帶來靈感。
新的視覺關系,人類動作和圖像級注釋
除了局部敘事,Open Images V6還新增了大量新的視覺關系和人類動作注釋。
比如在一張狗狗叼飛盤的圖像中,除了狗狗和飛盤會被各自標記出來,“捕捉”這個動作也會被標記出來。
而對計算機視覺而言,理解人的行為也是一大研究重點。于是,Open Images V6中現在一共包含250萬個人類動作,比如“跳躍”、“微笑”、“躺下”等等。
并且,在添加了2350萬個新的經過人工驗證的圖像級標簽后,Open Images V6里的圖像級標簽達到5990萬個,涵蓋19957個不同類別。
目前,Open Images V6共包含:
- 600種類別的可框住對象子集。包含1,743,042張訓練圖像,41,620張圖像的驗證集和125,436張圖像的測試集。
- 19,958種類別的圖像級標簽子集。訓練集包含7,337,077張人工驗證的注釋圖像和8,949,445張機器注釋圖像。
- 完整集合包含9,178,275張圖像。
關于Open Images
Open Images是谷歌在2016年推出的大規模圖像數據集,包括大約900萬張圖片,標注了數千個圖像類別。
2019年,谷歌釋出Open Images V5,新增了對圖像分割掩碼的注釋。分割對象樣本近280萬個,覆蓋350個類別,成為最大分割掩碼數據集。
并且從2018年開始,谷歌就基于Open Images數據集發起了系列挑戰賽。
谷歌希望,通過Open Images V6,能進一步刺激人們對真實場景的理解。
傳送門
Open Images V6下載地址:https://storage.googleapis.com/openimages/web/index.html
谷歌博客:https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html
— 完 —
- 蘋果芯片主管也要跑路!庫克被曝出現健康問題2025-12-07
- 世界模型和具身大腦最新突破:90%生成數據,VLA性能暴漲300%|開源2025-12-02
- 谷歌新架構突破Transformer超長上下文瓶頸!Hinton靈魂拷問:后悔Open嗎?2025-12-05
- 90后華人副教授突破30年數學猜想!結論與生成式AI直接相關2025-11-26



