神器 pypandoc —— 实现电子书自由

简介: 知识就是力量,甚至说 知识就是金钱 更为合适。在信息时代的我们,获取知识,提升认知如同吃饭一样,成为了必须做的事情,阅读是最常用的获取知识的方式,没用之一。

识就是力量,甚至说 知识就是金钱 更为合适。

在信息时代的我们,获取知识,提升认知如同吃饭一样,成为了必须做的事情,阅读是最常用的获取知识的方式,没用之一。

可是有时因为一些技术问题,导致我们阅读不便。

比如前几天,我想读一本 《人人都能用英语[1]》,找到了用 Markdown 写的原文,虽然可以阅读,但如何在手机上阅读,是个问题。

转为 Pdf,或者 html,虽然是可以,不过阅读起来很不方便,也记不住上次读到哪里了,更要命的是无法做笔记。

也搜了纸质书,因为这本书没用正式出版,所以也都是盗版的,就算了。

因为我经常用 多看APP 读书,如果能直接在多看上看就好了。

尝试了一圈,发现了一个好方法,现在我已经阅读过半了,体验很好,现在分享一下我的魔法过程。


解题思路

首先得知道,多看支持什么样的电子书格式,百度一下,特别全,为了更好的体验,决定转为 epub。

那么如何将 Markdown 转 epub 呢?一搜,发现有众多在线转服务,尝试了几个,不是收费就是各种限制,很不方便。

咱不是会编程吗?如果能自己搞岂不更好?

改变检索思路,很快发现了一个命令行工具 —— pandoc,进一步研究,发现竟然有 Python 版的 —— pypandoc,真是太棒了,研究一番,发现完全满足我的需求。

于是解决方案就是:

  1. 下载 markdown 版电子书
  2. 用 pypandoc 转化为 epub 格式
  3. 导入 多看, 阅读

开干!


神器出场

之所以喜欢 Python 有一个重要的原因就是安装和使用扩展很方便,几乎每个神器出场的方式都是一样的哈哈:

pip install pypandoc


友情提示:

最好创建一个虚拟环境来安装,这样不好影响其他库,也方便迁移,理解和创建虚拟环境可以参考 https://mp.weixin.qq.com/s/WflK5pOKhvPg8zrf_W5mfw


安装成功之后,可以测试一下:


>>> import pypandoc
>>> print(pypandoc.get_pandoc_version())
2.14.2


可见,我安装的版本是: 2.14.2


pandoc 是一个常用的软件,很多操作系统比如 Windows 可能已经内置

另外也可以单独安装,使用它的命令行工具,更多的 Pandoc 安装方式 和用法可以参考 pypandoc 说明[2]Pandoc 文档[3]


小试牛刀

翻看 pypandoc 说明,发现有个 convert_text 方法,可以用字符串的方式提供待转化的文本。

那先写一段 markdown 试试:


import pypandoc
input = "**Hello World!**"
output = pypandoc.convert_text(input, 'html', format='md')
print(output)


显示结果如下:


<p><strong>Hello World!</strong></p>

太棒了,将 **Hello World!** 转化成了一段 html 代码了。


再试点复杂的:


import pypandoc
input = """
# Pandoc
Pandoc 是个牛X的工具
## 用法
- `convert_text`
- `convert_file`
"""
output = pypandoc.convert_text(input, 'html', format='md')
print(output)


看看输出:

<h1 id="pandoc">Pandoc</h1>
<p>Pandoc 是个牛X的工具</p>
<h2 id="用法">用法</h2>
<ul>
<li><code>convert_text</code></li>
<li><code>convert_file</code></li>
</ul>


换一种输出格式呢?

output = pypandoc.convert_text(input, 'rst', format='md')


看看输出:

Pandoc
======
Pandoc 是个牛X的工具
用法
----
-  ``convert_text``
-  ``convert_file``


最好试试转化为 ePub 格式

ePub 格式无法输出为字符串,需要存入文件,所以需要用 加入 outputfile 参数


代码如下:

convert_test(input, 'epub', format='md', outputfile='test.epub')


用 EPUB File Reader 打开看看效果:

4.png

epub


生成电子书

测试了没问题后,就转化一个 Markdown 文件试试。

对于文件,需要用 convert_file 方法:


import pypandoc
convert_file('everyone-can-use-english.md', 'epub', 'md', outputfile='人人都能用英语.epub')


很快就能生成一个 epub 格式的电子书。

这里需要注意的是:引用的图片

如果是网络上的,需要将图片地址换成全网址,如果是相对的,需要保持目录结构,并提前准备好图片。

不然将无法生成图片,使电子书失去一定的可读性。

生成好了之后,可以将 人人都能用英语.epub 发送到手机上,用多看打开。

看看效果:

4.jpg

多看

之后就可以在书架里看到了:

5.jpg

多看书架

简直太棒了,可以安心的读书了!

这下岂不实现了电子书自由啦!

总结

今天介绍了 pyPandoc 的简单用法 pyPandoc 不仅帮助我创建了电子书,而且让我理解了 Markdown 转化为 Html 的对应关系,为进步步打造自己的写作系统奠定了基础。

Pandoc 是个强大的工具,利用好,可以帮助我们实现电子书自由,加上会 Python 编程,就更厉害了。

期望这篇文章对你有用,祝你打造出自己的电子书系统,比心!

参考资料

[1]

人人都能用英语: https://lixiaolai.com/#/everyone-can-use-english/

[2]

pypandoc 说明: https://github.com/NicklasTegner/pypandoc

[3]

Pandoc 文档: https://pandoc.org/index.html

目录
相关文章
|
Python
Python 压缩PDF减小文件大小
【8月更文挑战第6天】介绍了三种用Python压缩PDF文件的方法:1) 使用`pdfcompressor`库,安装后可通过简单命令压缩文件;2) 利用`PyPDF2`库,需手动设置压缩参数;3) 采用`pdfsizeopt`库,一键优化PDF大小。各方法均提供示例代码,便于快速实现文件压缩。
1478 0
|
分布式数据库 索引 缓存
Elasticsearch写入原理深入详解
ES将数据存储于一个或多个索引中,索引是具有类似特性的文档的集合。类比传统的关系型数据库领域来说,索引相当于SQL中的一个数据库,或者一个数据存储方案(schema)。索引由其名称(必须为全小写字符)进行标识,并通过引用此名称完成文档的创建、搜索、更新及删除操作。
4420 0
|
7月前
|
机器学习/深度学习 小程序 安全
让小程序开口说话:DeepSeek语音交互开发指南
本文介绍如何利用DeepSeek语音交互技术构建智能语音助手,涵盖从安装声音采集设备、训练语言理解模型到设计语音控制界面的全过程。通过生活化场景,如深夜查找教程、旅行中寻找餐厅等,展示如何实现自然对话。此外,还深入探讨多轮对话记忆、情感计算及智能家居控制等进阶功能,帮助开发者创建会倾听、善思考的语音应用。最后,提供性能优化与安全防护建议,引领读者进入人机共生的新时代。
|
Ubuntu 安全 Docker
【DevOps】Docker 最佳实践指南(绝对干货)
祝您的 Docker 之旅一切顺利!
432 4
|
9月前
|
数据库 索引
索引命名规范
本文介绍了数据库中不同类型的索引命名规则:主键索引命名为pk_字段名,唯一索引命名为uk_字段名,普通索引命名为idx_字段名。pk表示主键,uk表示唯一键,idx表示索引。
719 7
|
11月前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
287 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
小程序 前端开发 JavaScript
微信小程序实现微信支付(代码和注释很详细)
微信小程序实现微信支付(代码和注释很详细)
|
监控 NoSQL MongoDB
【MongoDB 专栏】MongoDB 的监控与性能调优
【5月更文挑战第11天】在数字化时代,MongoDB作为流行的非关系型数据库,其监控和性能调优至关重要。监控能实时了解数据库运行状态,预防性能问题,评估系统健康。关键监控指标包括系统资源、查询性能、连接数和数据存储量。常用工具如`mongostat`、`mongotop`,以及Prometheus、Grafana等。性能调优涉及索引、查询优化、数据模型调整、配置修改及分片复制。通过持续监控和调优,可确保MongoDB高效稳定运行,适应业务发展需求。
451 1
【MongoDB 专栏】MongoDB 的监控与性能调优
|
机器学习/深度学习 JSON 文字识别
OCR文字识别技术总结(一)
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,经过检测暗、亮的模式肯定其形状,而后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并经过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提升识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也随之产生。
4428 0
OCR文字识别技术总结(一)