Python将PDF转换为Word

简介: 在平时的工作中,我们总会希望将需要的 PDF 文件转换为 Word 文件,而市面上很多工具都是收费的,这无疑增加了我们的成本。所以,我使用 Python 编写了一个转换代码,可以 将 PDF 转换为 Word,完全是免费的,在这里分享给大家。

1b9351763aa6bbff78ff638b91a93891_20230427_time=1686816000&token=74e41b50f3421ba47c1b25410f0c59ec&role=free.gif

大家好,我是水滴~

在平时的工作中,我们总会希望将需要的 PDF 文件转换为 Word 文件,而市面上很多工具都是收费的,这无疑增加了我们的成本。

所以,我使用 Python 编写了一个转换代码,可以 将 PDF 转换为 Word,完全是免费的,在这里分享给大家。

上面的 GIF 图片就是转换的过程。在使用前,需要安装 pdf2docx 库,下面是详细教程。

安装 pdf2docx

该库可以将 PDF 文件转换为 Word 文件,它使用 PyMuPDF 从 PDF 中提取数据,使用规则解析布局,并使用 python-docx 生成 docx 文件。

当然该库还有一些限制,并不是所有 PDF 都能解析的:

  • 必须是基于文本的 PDF 文件

  • 文字必须从左到右

  • 阅读方向正常,无文字变换/旋转

  • 基于规则的方法也不能 100% 转换 PDF 布局

pip install pdf2docx

转换代码

pdf 文件转换为 docx 文件:

# 将 pdf 文件转换为 docx 文件
def pdf2docx(pdf_file, docx_file):
    cv = Converter(pdf_file)
    cv.convert(docx_file)
    cv.close()

转换效果:

ab21d9489c101f11a5f62b33913dc18a_f72d23e56dbe845b41a357cab00232cc_aDryx1_time=1686816000&token=a6e98d3634b165eabb288afd55ea2e6b&role=free.png

🍅🍅🍅 获取源码,请在下方「水滴技术」公众号回复:20230427

相关文章
|
1天前
|
JSON 关系型数据库 数据库
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
|
1天前
|
JSON 关系型数据库 数据库
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
【python】Python将100个PDF文件对应的json文件存储到MySql数据库(源码)【独一无二】
|
1天前
|
前端开发 文件存储 Python
python之xhtml2pdf: HTML转PDF工具示例详解
python之xhtml2pdf: HTML转PDF工具示例详解
11 0
|
1天前
|
人工智能 Python
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
56 0
|
1天前
|
Python
Python异步编程|PySimpleGUI界面读取PDF转换Excel
Python异步编程|PySimpleGUI界面读取PDF转换Excel
20 1
|
1天前
|
Python
python html(文件/url/html字符串)转pdf
python html(文件/url/html字符串)转pdf
10 0
|
1天前
|
Python
Python 合并多个 PDF 文件并建立书签目录
Python 合并多个 PDF 文件并建立书签目录
16 1
|
1天前
|
BI 开发者 数据格式
Python代码填充数据到word模板中
【4月更文挑战第16天】
|
Python
<自动化办公> Python 操控 Word
虽然Word不好用, 但还必须得用它, python-docx是专门用于编辑Word文档的一个工具库, 它有两大用途, 自动化生成word文档 and 自动化修改文档 python word 1.
1776 0
|
1天前
|
JSON 数据格式 开发者
pip和requests在Python编程中各自扮演着不同的角色
【5月更文挑战第9天】`pip`是Python的包管理器,用于安装、升级和管理PyPI上的包;`requests`是一个HTTP库,简化了HTTP通信,支持各种HTTP请求类型及数据交互。两者在Python环境中分别负责包管理和网络请求。
27 5