爬網頁、洗數據、創建海量數據集一條龍！英偉達工程師開源工具庫

乾明 2019-03-01 14:25:31 來源：量子位

英偉達工程師小姐姐Chip Huyen，在GitHub上開源了一個名為“lazynlp”的工具庫。爬網頁、清洗數據、創建數據集都可以搞定。

乾明發自凹非寺

量子位報道 | 公眾號 QbitAI

想做研究，卻沒有足夠的數據，著實讓人抓狂、苦惱。

現在，你可以自己動手創建數據集了。

英偉達工程師小姐姐Chip Huyen，在GitHub上開源了一個名為“lazynlp”的工具庫。

爬網頁、清洗數據、創建數據集都可以搞定。

她說，使用這個庫，你應該能創建一個比大于40G的文本數據集，比OpenAI訓練GPT-2時使用的還要大。

開源僅一天，項目在GitHub上就獲得了300多星，Twitter上獲得上千次點贊。fast.ai創始人Jeremy Howard等人也轉發推薦。

而且，用這個工具庫創建數據集的過程，也并不麻煩。

五步走，一條龍

第一步，獲取你想抓取的網頁的網址。

小姐姐提供了三個你可以直接拿走使用的網址集合，分別來自Reddit、古騰堡計劃（電子書）、維基百科。

當然，你也可以下載自己的。

第二步，刪除重復的網址。

網址有很多，重復也在所難免。

這里提供了兩種方法，來刪除重復的網址。

第三步，下載網址內容。

這里提供了兩種方法，一種可以并行下載多個文件，另一種可以單獨下載網頁內容。

如果網址數量比較大，可以將列表分成多個文件的，分別調用函數。

小姐姐說，自己能夠并行40個腳本，下載起來也更容易一些。

第四步，清理網頁。

這一步有3個方法可以選擇，一是使用lazynlp/cleaner.py中的方法，二是直接調用命令行：

lazynlp.clean_page(page)

另外，也可以使用lazynlp.download_pages ( )函數，同時爬網頁并清理。

第五步，刪除重復網頁。

網站下載好了，該清理的東西都清理了，接下來需要去重。

不然就會有一些文本重復出現，從而影響數據集的表現。

小姐姐提供了3個函數，可以幫你完成步驟。

做完這些，你就有自己的NLP數據集了，想干什么就可以放手去做了。

如果你有想法，請收好下面的傳送門：

https://github.com/chiphuyen/lazynlp

大數據開源代碼

乾明

爬網頁、洗數據、創建海量數據集一條龍！英偉達工程師開源工具庫

五步走，一條龍

相關閱讀

騰訊大數據平臺，要“沒人管”了

智慧城市沙龍 | 明略科技集團副總裁唐日新：大城小事

15小時、幾千元訓完中文版LLaMA2！低成本方案全面開源，支持商用

騰訊大數據回答2019：鵝廠開源先鋒，日均計算量超30萬億

2000 行代碼，帶你寫一個自己的 SQL 數據庫

患者痛不欲生，但AI說：別給她開止疼藥

熱門文章

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術報告還是老外看得細

谷歌新架構突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年