GitHub 开源数据库 chinese-poetry,最全中文诗歌古典文集数据库

简介: GitHub 开源数据库 chinese-poetry,最全中文诗歌古典文集数据库

今天跟大家分享一个 Github 上诗词古典文集开源数据库(或称之为数据集):chinese-poetry

image.png

chinese-poetry:最全中文诗词文集数据库


chinese-poetry 数据集包含 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。诗人包括唐宋两朝近 1.4 万古诗人,和两宋时期 1.5 千古词人。(当然如今数据可能已经不止这么多了,该项目有很多志同道合者一直在贡献着、完善着,未来数据量可能更加庞大

image.png

两宋喜欢的词牌名


该项目开源至今为止, GitHub Star 数也达到了 40.8k,这个star数量相当大了,使用人数及贡献者当然也不在少数。现在详细介绍下该项目吧。


项目介绍


GitHub项目地址:https://github.com/chinese-poetry/chinese-poetry


基于chinese-poetry 开发的诗词项目(小程序、网页):https://shici.store/huajianji/


作者做这个项目的初衷?

古诗是中华民族乃至全世界的瑰宝,我们应该传承下去,虽然有古典文集,但大多数人并没有拥有这些书籍。从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让我们很方便的开始项目开发。


该项目数据来源?

chinese-poetry 数据集中的所有数据均来自于网络,通过网络爬虫方式进行采集,存储,分析并开源。


如何使用该项目?

在使用该项目时,可以根据自己的需要选择相应的数据文件进行下载,也可以使用提供的API接口进行数据获取和处理。该项目的数据文件格式为JSON,非常易于处理和解析。


数据采集过程分析


在项目中,作者也着重的说明了全宋词采集过程及针对各个维度高频词做了词云分析。让人一目了然,可以更加直观的了解宋词,宋词的主要贡献作者等等。


比如:针对采集的宋词数据,进行宋词作者产量分析


从下图词云可以发现,辛弃疾 是两宋现存词最多的作家, 还有一些虽然产量丰富但未必是我们所熟知的。

image.png

针对采集的宋词数据,进行宋词作者产量分析


还有,最受欢迎的词牌名排名分析


而从下图词云,可以发现,浣溪沙 作为婉约、豪放两派所常用的词牌, 在两宋时期作为最受欢迎的词牌名。

image.png

最受欢迎的词牌名排名分析


数据采集技术栈


技术栈:Python + parsel + peewee + requests + jieba


利用Python语言的特性,再加之丰富的第三方库,可快速进行网络数据请求,并解析处理分析出我们想要的数据,从而完善了 chinese-poetry 开源中文诗歌古集数据库。


完整代码:https://gist.github.com/jackeyGao/d73381087b1278177aab60636f635119#file-crawl_songci_parse-py

image.png

采集代码截取片段


数据集


  • 全唐诗
  • 全宋诗
  • 全宋词
  • 五代·花间集
  • 五代·南唐二主词
  • 论语
  • 诗经
  • 幽梦影
  • 四书五经
  • 蒙學
  • 纳兰性德诗集


案例展示


1、诗词解谜小游戏


项目地址:https://peotik.com/

image.png

诗词解谜小游戏


2、中文诗歌主页


中文诗歌主页是一个基于浏览器的诗词网站,包含唐诗三百首、宋词三百首等文集。呈现方式有诗词周历、日历小程序等。


项目地址:https://shici.store/

image.png

中文诗歌主页


3、诗词墨客小程序


该项目采用 Wepy 框架 + iview-weapp UI组件库,古诗词数据源来自于 chinese-poetry 开源仓库,包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人。


项目地址:https://github.com/nslogx/weapp-poem

image.png

诗词墨客小程序


总结


基于该中文诗词数据集项目,可以集成相关诗词 API 接口,嵌入第三方平台、系统、小程序中,也可以作为练手的项目小试牛刀,嵌入到自己的小项目中作为每日古诗集推荐等等。


最后,值得一提的是,该项目的开发和维护是由一群热爱中华文化的志愿者完成的。为更多人了解和学习中华文化提供支持和帮助。这个项目的开源精神和志愿者精神也值得我们学习和借鉴。


总之,该项目是一个非常有价值的开源数据库,为研究和传承中国文化传统提供了重要的资源和支持。如果对中国古代文学和文化传统感兴趣,或者需要相关的语料库资源,那么这个项目绝对值得一试。

相关文章
|
13天前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
20天前
|
存储 关系型数据库 MySQL
MySQL vs. PostgreSQL:选择适合你的开源数据库
在众多开源数据库中,MySQL和PostgreSQL无疑是最受欢迎的两个。它们都有着强大的功能、广泛的社区支持和丰富的生态系统。然而,它们在设计理念、性能特点、功能特性等方面存在着显著的差异。本文将从这三个方面对MySQL和PostgreSQL进行比较,以帮助您选择更适合您需求的开源数据库。
80 4
|
28天前
|
存储 JSON Ubuntu
时序数据库 TDengine 支持集成开源的物联网平台 ThingsBoard
本文介绍了如何结合 Thingsboard 和 TDengine 实现设备管理和数据存储。Thingsboard 中的“设备配置”与 TDengine 中的超级表相对应,每个设备对应一个子表。通过创建设备配置和设备,实现数据的自动存储和管理。具体操作包括创建设备配置、添加设备、写入数据,并展示了车辆实时定位追踪和车队维护预警两个应用场景。
49 3
|
1月前
|
SQL JSON 关系型数据库
MySQL是一个广泛使用的开源关系型数据库管理系统,它有许多不同的版本
【10月更文挑战第3天】MySQL是一个广泛使用的开源关系型数据库管理系统,它有许多不同的版本
133 5
|
1月前
|
关系型数据库 分布式数据库 数据库
PolarDB 开源:推动数据库技术新变革
在数字化时代,数据成为核心资产,数据库的性能和可靠性至关重要。阿里云的PolarDB作为新一代云原生数据库,凭借卓越性能和创新技术脱颖而出。其开源不仅让开发者深入了解内部架构,还促进了数据库生态共建,提升了稳定性与可靠性。PolarDB采用云原生架构,支持快速弹性扩展和高并发访问,具备强大的事务处理能力及数据一致性保证,并且与多种应用无缝兼容。开源PolarDB为国内数据库产业注入新活力,打破国外垄断,推动国产数据库崛起,降低企业成本与风险。未来,PolarDB将在生态建设中持续壮大,助力企业数字化转型。
84 2
|
22天前
|
编解码 人工智能 自然语言处理
MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
近日,香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。一起看看该模型的一些表现吧!
|
1月前
|
数据采集 应用服务中间件 Go
开源的键鼠共享工具「GitHub 热点速览」
开源的键鼠共享工具「GitHub 热点速览」
|
2月前
|
关系型数据库 分布式数据库 数据库
开源云原生数据库PolarDB PostgreSQL 15兼容版本正式发布
PolarDB进行了深度的内核优化,从而实现以更低的成本提供商业数据库的性能。
|
3月前
|
人工智能 Rust JavaScript
Github 2024-08-26 开源项目周报Top15
根据Github Trendings的统计,本周共有15个项目上榜。以下是按开发语言汇总的项目数量:Python项目8个,TypeScript、C++ 和 Rust 项目各2个,Jupyter Notebook、Shell、Swift 和 Dart 项目各1个。其中,RustDesk 是一款用 Rust 编写的开源远程桌面软件,可作为 TeamViewer 的替代品;Whisper 是一个通用的语音识别模型,基于大规模音频数据集训练而成;初学者的生成式人工智能(第2版)则是由微软提供的18门课程,教授构建生成式AI应用所需的知识。
126 1
|
3月前
|
Rust Dart 前端开发
Github 2024-08-19 开源项目周报Top15
根据Github Trendings的统计,本周(2024年8月19日统计)共有15个项目上榜。按开发语言分类,上榜项目数量如下:Python项目最多,有7项;其次是JavaScript和TypeScript,各有3项;Dart有2项;HTML、PowerShell、Clojure和C++各1项。此外,还介绍了多个热门项目,包括Bootstrap 5、RustDesk、ComfyUI、易采集、Penpot等,涵盖了Web开发、远程桌面、自动化测试、设计工具等多个领域。
110 1