爬網頁、洗數據、創建海量數據集一條龍!英偉達工程師開源工具庫
英偉達工程師小姐姐Chip Huyen,在GitHub上開源了一個名為“lazynlp”的工具庫。爬網頁、清洗數據、創建數據集都可以搞定。
乾明 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
想做研究,卻沒有足夠的數據,著實讓人抓狂、苦惱。
現在,你可以自己動手創建數據集了。
英偉達工程師小姐姐Chip Huyen,在GitHub上開源了一個名為“lazynlp”的工具庫。
爬網頁、清洗數據、創建數據集都可以搞定。
她說,使用這個庫,你應該能創建一個比大于40G的文本數據集,比OpenAI訓練GPT-2時使用的還要大。
開源僅一天,項目在GitHub上就獲得了300多星,Twitter上獲得上千次點贊。fast.ai創始人Jeremy Howard等人也轉發推薦。
而且,用這個工具庫創建數據集的過程,也并不麻煩。
五步走,一條龍
第一步,獲取你想抓取的網頁的網址。
小姐姐提供了三個你可以直接拿走使用的網址集合,分別來自Reddit、古騰堡計劃(電子書)、維基百科。
當然,你也可以下載自己的。
第二步,刪除重復的網址。
網址有很多,重復也在所難免。
這里提供了兩種方法,來刪除重復的網址。
第三步,下載網址內容。
這里提供了兩種方法,一種可以并行下載多個文件,另一種可以單獨下載網頁內容。
如果網址數量比較大,可以將列表分成多個文件的,分別調用函數。
小姐姐說,自己能夠并行40個腳本,下載起來也更容易一些。
第四步,清理網頁。
這一步有3個方法可以選擇,一是使用lazynlp/cleaner.py中的方法,二是直接調用命令行:
lazynlp.clean_page(page)
另外,也可以使用lazynlp.download_pages ( )函數,同時爬網頁并清理。
第五步,刪除重復網頁。
網站下載好了,該清理的東西都清理了,接下來需要去重。
不然就會有一些文本重復出現,從而影響數據集的表現。
小姐姐提供了3個函數,可以幫你完成步驟。
做完這些,你就有自己的NLP數據集了,想干什么就可以放手去做了。
如果你有想法,請收好下面的傳送門:
https://github.com/chiphuyen/lazynlp
- 滴滴副總裁葉杰平離職,他是出行巨頭的AI掌門人,戰勝Uber中國的關鍵科學家2020-09-07
- 董明珠的格力空調賣不動了:上半年營收同比腰斬,24年來首次被美的反超2020-09-01
- 手機配件市場上的“隱形巨頭”:80后長沙夫妻創辦,IPO首日市值逼近600億2020-08-31
- 寒武紀半年報:每天虧百萬,銷售力度提升營收反降11%,上市高峰市值跌去40%2020-08-30



