數據集查找神器!100個大型機器學習數據集都匯總在這了 | 資源
太好用了
銅靈 發自 凹非寺
量子位 出品| 公眾號 QbitAI
想自己構建機器學習模型,沒想到首先就卡在了第一步。
網上各種數據集魚龍混雜,質量也參差不齊,簡直讓人挑花了眼。想要獲取大型數據集,還要挨個跑到各數據集的網站,兩個字:麻煩。
如何才能高效找到機器學習領域規模最大、質量最高的數據集?
為了響應廣大網友的呼聲,網友u/UpdraftDev將全網最大的機器學習數據集整理匯集,并對這些數據集進行了分類和介紹。
想找心儀數據集,現在一目了然。網友紛紛表示:很滿意!
太方便了
這個網站上,共收集到了100多個業界最大型的數據集。
根據任務類別,這些數據集中又分為三大類:計算機視覺(CV)、自然語言處理(NLP)和音頻數據集。
在網站主頁,一眼掃過去可以看到數據集名稱、發布時間、簡要介紹、開源協議、相關論文等重要信息,查找起來非常方便。
點進去就直接跳轉到網站主頁了,輕輕一點,免去了你挨個搜索每個數據集地址的麻煩。
神仙數據集
清單中列舉的數據集中,不乏一些有趣的業界知名數據集,在很多的機器學習任務中,這些數據集都是最實用、出現場次最高的那一批。
都是哪些神仙數據集?
計算機視覺領域
先來看一下CV領域,匯總中收納了70個大型數據集,很多經常遇到的經典數據集都在里面。
看看你能認出幾個:
其中,包含了英偉達去年12月開源的人臉數據集FFHQ(Flickr-Faces-HQ),內含7萬張1024×1024分辨率的高清人臉大圖。
它提供了高度多樣化、高質量的人臉數據,并且涵蓋了比現有高分辨率數據集(如CelebA-HQ)更多的變化,比如更多佩戴眼鏡、帽子的照片。
也有一些熟悉的中國企業身影。
比如百度開放的自動駕駛數據集ApolloScape,包括感知、仿真場景、路網數據等數十萬幀逐像素語義分割標注的高分辨率圖像數據。
數據集采用了逐像素語義分割標注的方式,是環境復雜、標注精準、數據量大的自動駕駛數據集。
騰訊開源的Tencent ML-Images項目,其多標簽圖像數據集ML-Images包含了1800萬圖像和1.1萬多種常見物體類別,比谷歌開源的Open Images數據集還豐富不少。
當然,像ImageNet、KITTI、COCO、Cityscapes等這樣的老牌經典數據集也都在里面。
自然語言處理(NLP)領域
NLP領域目前有26個數據集:
斯坦福大學NLP組的SQuAD 2.0你得了解一下,和一代相比,2.0版在增加對抗性問題的同時,也新增了一項“判斷一個問題能否根據提供的閱讀文本作答”的任務。
SQuAD 2.0中不僅包含十萬個問題-答案對,還有超過五萬個由人類眾包者對抗性地設計的無法回答的問題。
CoQA數據集也是斯坦福開發的對話數據集,包含來自8k組對話的127k個帶有答案的問題。這些對話涉及 7 個不同領域,每組對話的平均長度為15輪,每一輪對話都由問題和回答組成。
此外,DeepMind的Q&A問答數據集、微軟的MS MARCO機器閱讀理解數據集、三名中國學生推出的HotpotQA新型問答數據集等,都可以在這份清單中一鍵直達。
音頻數據集
還有四個大型音頻數據集:
谷歌的大規模音頻數據集AudioSet,包含632類的音頻類別以及2084320 條人工標記的每段10秒的聲音剪輯片段,覆蓋大范圍人類與動物、樂器與音樂流派、日常環境聲音。
谷歌NSynth數據集,收錄了從1000種樂器中采集的大量注釋的音符,包括不同的音高和速率,比同類的公共數據集大了一個數量級。
初創公司Mozilla公布的Common Voice數據集,內含2萬名英語志愿者500小時、40萬份錄音,語料庫也在不斷擴充中。
還有LibriSpeech?ASR corpus語音數據集,包括1000小時的英文發音和對應文字,數據來自LibriVox項目的有聲讀物,是一個大型的語料數據庫。
傳送門
這份清單中還有很多實用有趣的數據集,記得自己也去探索一遍。
目前,數據集匯合還在持續更新中,記得及時收藏。
數據集地址:
https://www.datasetlist.com/
作者系網易新聞·網易號“各有態度”簽約作者
—?完?—
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位?QbitAI · 頭條號簽約作者
?’?’ ? 追蹤AI技術和產品新動態
- 微軟公布19財年財報:凈利潤增長22%,云計算首超個人計算業務2019-07-19
- 騰訊云推出物聯網邊緣計算平臺,具備五大特點,想攻克物聯網落地難題2019-08-28
- DeepMind醫療業務幾經動蕩,現在團隊并入Google2019-09-20
- 首例基因編輯干細胞治療艾滋病:北大鄧宏魁參與,達最佳治療效果2019-09-14



