今日GitHub熱榜第一:最全中華古詩詞數據庫,收錄30多萬詩詞
乾明 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
收錄5.5萬首唐詩,超過28萬首宋詞,還囊括了詩經、論語、蒙學等……
這個名為“chinese-poetry”、號稱“最全中文詩歌古典文集數據庫”的項目,今日登頂GitHub熱榜第一。
截止發稿,這一項目已獲得近2.5萬標星,Fork超過4600,受歡迎度可見一斑。
項目發起者名為Jackey,在Teambition從事運維自動化工作。他解釋了為什么要做這個倉庫:
從某種意義上來說,這些龐大的文集離我們是有一定距離的。而電子版方便拷貝,所以此開源數據庫誕生了。此數據庫通過 JSON 格式分發,可以讓你很方便的開始你的項目。
10大數據集
整個項目最核心的內容,就是數據集了。
目前,倉庫中一共有10個數據集,分別是:全唐詩、全宋詩、全宋詞、五代·花間集、五代·南唐二主詞、論語、詩經、幽夢影、四書五經、蒙學。
這些數據,都來自互聯網。如何采集的?項目發起者也分享了全宋詞爬取過程及數據分析。
為什么沒有古詩?他也給出了解釋,古詩采集沒有記錄過程,因為古詩數據龐大,目標網站有限制,采集過程經常中斷超過了一個星期。
圍繞著數據庫,他也進行了一個初步的詞頻分析:
但這些數據集的應用,遠遠不止于此。
8大案例展示
在項目中,作者也放上了使用數據集的應用案例。
有基于瀏覽器的詩詞網站,有安卓版的應用“離線全唐詩”,有簡體唐詩生成(char-RNN),也詩詞桌面和相關小程序等等。
而且這些項目,也大都在GitHub上開源了。
如果你有興趣,可以收好傳送門:
https://github.com/chinese-poetry/chinese-poetry
版權所有,未經授權不得以任何形式轉載及使用,違者必究。
- 滴滴副總裁葉杰平離職,他是出行巨頭的AI掌門人,戰勝Uber中國的關鍵科學家2020-09-07
- 董明珠的格力空調賣不動了:上半年營收同比腰斬,24年來首次被美的反超2020-09-01
- 手機配件市場上的“隱形巨頭”:80后長沙夫妻創辦,IPO首日市值逼近600億2020-08-31
- 寒武紀半年報:每天虧百萬,銷售力度提升營收反降11%,上市高峰市值跌去40%2020-08-30



