GitHub 开源数据库 chinese-poetry,最全中文诗歌古典文集数据库

简介: GitHub 开源数据库 chinese-poetry,最全中文诗歌古典文集数据库

今天跟大家分享一个 Github 上诗词古典文集开源数据库(或称之为数据集):chinese-poetry

image.png

chinese-poetry:最全中文诗词文集数据库


chinese-poetry 数据集包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人,和两宋时期 1.5 千古词人。(当然如今数据可能已经不止这么多了,该项目有很多志同道合者一直在贡献着、完善着,未来数据量可能更加庞大

image.png

两宋喜欢的词牌名


该项目开源至今为止, GitHub Star 数也达到了 40.8k,这个star数量相当大了,使用人数及贡献者当然也不在少数。现在详细介绍下该项目吧。


项目介绍


GitHub项目地址:https://github.com/chinese-poetry/chinese-poetry


基于chinese-poetry 开发的诗词项目(小程序、网页):https://shici.store/huajianji/


作者做这个项目的初衷?

古诗是中华民族乃至全世界的瑰宝,我们应该传承下去,虽然有古典文集,但大多数人并没有拥有这些书籍。从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让我们很方便的开始项目开发。


该项目数据来源?

chinese-poetry 数据集中的所有数据均来自于网络,通过网络爬虫方式进行采集,存储,分析并开源。


如何使用该项目?

在使用该项目时,可以根据自己的需要选择相应的数据文件进行下载,也可以使用提供的API接口进行数据获取和处理。该项目的数据文件格式为JSON,非常易于处理和解析。


数据采集过程分析


在项目中,作者也着重的说明了全宋词采集过程及针对各个维度高频词做了词云分析。让人一目了然,可以更加直观的了解宋词,宋词的主要贡献作者等等。


比如:针对采集的宋词数据,进行宋词作者产量分析


从下图词云可以发现,辛弃疾 是两宋现存词最多的作家, 还有一些虽然产量丰富但未必是我们所熟知的。

image.png

针对采集的宋词数据,进行宋词作者产量分析


还有,最受欢迎的词牌名排名分析


而从下图词云,可以发现,浣溪沙 作为婉约、豪放两派所常用的词牌, 在两宋时期作为最受欢迎的词牌名。

image.png

最受欢迎的词牌名排名分析


数据采集技术栈


技术栈:Python + parsel + peewee + requests + jieba


利用Python语言的特性,再加之丰富的第三方库,可快速进行网络数据请求,并解析处理分析出我们想要的数据,从而完善了 chinese-poetry 开源中文诗歌古集数据库。


完整代码:https://gist.github.com/jackeyGao/d73381087b1278177aab60636f635119#file-crawl_songci_parse-py

image.png

采集代码截取片段


数据集


  • 全唐诗
  • 全宋诗
  • 全宋词
  • 五代·花间集
  • 五代·南唐二主词
  • 论语
  • 诗经
  • 幽梦影
  • 四书五经
  • 蒙學
  • 纳兰性德诗集


案例展示


1、诗词解谜小游戏


项目地址:https://peotik.com/

image.png

诗词解谜小游戏


2、中文诗歌主页


中文诗歌主页是一个基于浏览器的诗词网站,包含唐诗三百首、宋词三百首等文集。呈现方式有诗词周历、日历小程序等。


项目地址:https://shici.store/

image.png

中文诗歌主页


3、诗词墨客小程序


该项目采用 Wepy 框架 + iview-weapp UI组件库,古诗词数据源来自于 chinese-poetry 开源仓库,包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人。


项目地址:https://github.com/nslogx/weapp-poem

image.png

诗词墨客小程序


总结


基于该中文诗词数据集项目,可以集成相关诗词 API 接口,嵌入第三方平台、系统、小程序中,也可以作为练手的项目小试牛刀,嵌入到自己的小项目中作为每日古诗集推荐等等。


最后,值得一提的是,该项目的开发和维护是由一群热爱中华文化的志愿者完成的。为更多人了解和学习中华文化提供支持和帮助。这个项目的开源精神和志愿者精神也值得我们学习和借鉴。


总之,该项目是一个非常有价值的开源数据库,为研究和传承中国文化传统提供了重要的资源和支持。如果对中国古代文学和文化传统感兴趣,或者需要相关的语料库资源,那么这个项目绝对值得一试。

相关文章
|
28天前
|
Apache 数据安全/隐私保护 Docker
【开源问答系统】GitHub 14.9k star 的开源问答引擎来了,三分钟搭建完成~~~
Apache Answer 是一款开源问答系统,助力团队将零散知识沉淀为结构化资产。支持 Docker 快速部署、插件扩展、权限控制与多语言,兼具高效搜索、投票排序与私有化部署能力,适用于技术社区、企业知识库与用户支持场景。
318 22
|
1月前
|
人工智能 JavaScript 前端开发
Github 2024-10-28 开源项目周报 Top15
本周GitHub热门项目涵盖Svelte、Open Interpreter、PowerShell等,涉及Web开发、AI助手、自动化工具等领域,Python、JavaScript为主流语言,展现开源技术活跃生态。(239字)
367 19
|
26天前
|
缓存 自然语言处理 JavaScript
抓紧上车,别再错过啦, Github 开源后台管理平台,Naive UI !!!
naive-ui-pro 是基于 Vue3 + Vite + TypeScript 的免费开源中后台模板,主打“路由插件化架构”,将权限、页签、缓存等功能拆解为可插拔模块,像搭积木一样灵活组装。内置 14+ 插件、Pro Naive UI 组件库与丰富示例,支持移动端适配、多主题、国际化,MIT 许可,开箱即用,助力高效开发。
156 4
|
1月前
|
人工智能 JavaScript 前端开发
Github 2024-11-04 开源项目周报 Top14
本周GitHub热门项目涵盖屏幕截图转代码、网页监控、低代码开发等。Python与TypeScript主导,亮点项目包括AI生成代码工具、开源社交应用Bluesky及机器人框架LeRobot,展现AI与自动化技术的快速发展趋势。
156 15
|
1月前
|
人工智能 JavaScript Docker
Github 2024-11-11 开源项目周报 Top15
本周GitHub热门项目涵盖多领域:Python与TypeScript领跑,包括屏幕截图转代码、本地文件共享、PDF处理、AI开发代理等。亮点项目如screenshot-to-code、LocalSend、OpenHands及Diagrams,兼具创新与实用性,广受开发者关注。
155 13
|
1月前
|
人工智能 算法 JavaScript
Github 2024-10-14 开源项目周报 Top14
本周GitHub热门项目共14个,Python项目占7席。涵盖算法实现、生成式AI、金融分析、目标检测等领域,包括TheAlgorithms系列、OpenBB金融平台、Ultralytics YOLO11、Manim动画框架等,展现开源技术多元发展态势。
103 8
|
1月前
|
人工智能 Rust JavaScript
Github 2024-10-07 开源项目周报 Top15
本周GitHub热门项目共15个,Python项目占比最高达7个。榜首为Python算法实现集合TheAlgorithms/Python,Star数超17万;其他亮点包括Godot游戏引擎、OpenBB金融平台、ToolJet低代码框架及新兴AI相关项目如Crawl4AI、Llama Stack等,涵盖游戏、金融、AI、理财等多个领域。
78 4
|
1月前
|
人工智能 Rust 算法
Github 2024-09-30 开源项目周报 Top15
本周GitHub热门项目揭晓:Python主导,AutoGPT居首,涵盖AI、编程、数学动画等领域,助力开发者探索前沿技术。
122 4
|
1月前
|
人工智能 JavaScript 前端开发
Github 2024-09-16 开源项目周报 Top14
本周GitHub热门项目涵盖Python、TypeScript、Go等语言,React居首。亮点包括微软PowerToys、Node版本管理器、AI证件照工具HivisionIDPhotos及端侧大模型MiniCPM等。
103 2
|
1月前
|
Rust JavaScript 安全
Github 2024-09-02 开源项目周报 Top13
本周GitHub热门项目涵盖AI、开发工具与开源替代品。包括Notion替代AppFlowy、Airtable替代NocoDB、云平台Coolify及可观察性平台OpenObserve等,涉及Python、TypeScript、Rust等语言,聚焦效率、隐私与自动化。
111 1

热门文章

最新文章