备案控制台登录注册登录/注册

开发者社区开发与运维文章正文

用Python 从 PDF 抽取 Excel 2.0

2022-12-10 175 发布于吉林

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 用Python 从 PDF 抽取 Excel 2.0

前些天向大家介绍了我开发的从PDF抽取表格小工具的使用方法（⬅️点击直达），有同学反馈说有一些问题：

一页PDF有多张表，只能抽取第一个
有些表格线条是透明的，无法抽取
一页一页处理太麻烦，不能一次性抽取

针对以上情况，我在原功能基础上进行了优化，本文依旧不涉及代码，具体实现过程我考虑在B站直播讲解。

这里就将优化部分的使用方法介绍一下

https://huggingface.co/spaces/beihai/PDF-Table-Extractor

单页PDF包含多个表格

这部分已经做了代码优化，前端也有一点点变化

选择具体页码后，自动弹出抽取完成，下载的Excel包含多个sheet页，对应多张表格。

表格线条是否透明

有些 PDF 中的表格线条是透明的,比如下图这种情况

大家可以在线条是否透明下拉框选择 True

一键全页抽取

如果想要抽取一个PDF中所有的表格，在页码处填写 all 即可。

当然，如果页码较多，如此操作会很慢，需要耐心等待。

也可以填页码区间，比如1-3页就填1-3，第十页到最后一页，可以填10-end

如果某些表格没有被提取，可以重新选择表格线条是否透明重跑一下。

以上。欢迎三连。

另。

直播暂定周日晚，欢迎来波关注，届时会在动态发预告

文章标签：

Python

前端开发

关键词：

Python PDF

Python Excel

PDF excel

excel python

PDF python

玩机器学习的章北海-13621

+关注

目录

打赏

0

0

1

0

14

相关文章

鱼的爱情看不出泪水

|

17天前

|

编译器 Python

如何利用Python批量重命名PDF文件

本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook，结合tabula库实现PDF数据读取与处理，并提供代码示例与参考文献。

鱼的爱情看不出泪水

47 1 1

站大爷

|

26天前

|

前端开发安全 Java

办公自动化必修课：用Python打造PDF全能处理工具

在职场中，PDF处理常令人崩溃：拆分、合并、加密等问题严重影响效率。本文教你用Python打造一个包含拆分、合并、加密、水印四大功能的PDF工具箱，通过实战代码提升办公自动化水平，让文档操作像拼乐高一样简单高效。

站大爷

75 0 0

小白学大数据

|

1月前

|

数据采集存储 API

Python爬虫结合API接口批量获取PDF文件

Python爬虫结合API接口批量获取PDF文件

小白学大数据

68 0 0

Echo_Wish

|

2月前

|

机器学习/深度学习数据采集数据可视化

Python数据分析，别再死磕Excel了！

Python数据分析，别再死磕Excel了！

Echo_Wish

130 2 3

Undoom

|

2月前

|

人工智能算法安全

使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具

通过 CodeBuddy 实现本地批量转换工具，让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程，真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把

Undoom

116 10 10

无糖可乐嘟嘟

|

7月前

|

数据采集数据可视化数据挖掘

利用Python自动化处理Excel数据：从基础到进阶####

本文旨在为读者提供一个全面的指南，通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者，本文都将帮助你掌握Pandas和openpyxl这两个强大的库，从而提升数据处理的效率和准确性。我们将从环境设置开始，逐步深入到数据读取、清洗、分析和可视化等各个环节，最终实现一个实际的自动化项目案例。 ####

无糖可乐嘟嘟

1214 10 10

程序员晚枫

|

3月前

|

文字识别程序员 UED

Python + 腾讯云，多页PDF发票识别一键搞定！

程序员晚枫团队推出了基于Python和腾讯云的多页PDF发票识别功能！通过一行代码即可实现整本PDF发票的高效识别，并直接导出为Excel文件，极大提升工作效率。此次更新修复了仅识别第一页的bug，支持多页PDF完整识别。未来还将拓展更多票据类型、优化速度并加强平台合作。欢迎用户体验并提出建议，共同推动开源项目poocr的成长与进化！

程序员晚枫

98 7 7

老乡别走

|

5月前

|

文字识别 Serverless 开发工具

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术，可自动提取学生信息并录入Excel，便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤，包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南，帮助用户高效处理PDF文件。链接： - 百度网盘：[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘：[链接](https://share.weiyun.com/a77jklXK)

老乡别走

558 5 5

愿天堂没有BUG（公众号同名）

|

5月前

|

机器学习/深度学习存储数据可视化

这份Excel+Python飞速搞定数据分析手册，简直可以让Excel飞起来

本书介绍了如何将Python与Excel结合使用，以提升数据分析和处理效率。内容涵盖Python入门、pandas库的使用、通过Python包操作Excel文件以及使用xlwings对Excel进行编程。书中详细讲解了Anaconda、Visual Studio Code和Jupyter笔记本等开发工具，并探讨了NumPy、DataFrame和Series等数据结构的应用。此外，还介绍了多个Python包（如OpenPyXL、XlsxWriter等）用于在无需安装Excel的情况下读写Excel文件，帮助用户实现自动化任务和数据处理。

愿天堂没有BUG（公众号同名）

279 0 0

老乡别走

|

5月前

|

文字识别 BI

【图片型PDF】批量识别扫描件PDF指定区域局部位置内容，将识别内容导出Excel表格或批量改名文件，基于阿里云OCR对图片型PDF识别改名案例实现

在医疗和政务等领域，图片型PDF文件（如病历、报告、公文扫描件）的处理需求广泛。通过OCR技术识别这些文件中的文字信息，提取关键内容并保存为表格，极大提高了信息管理和利用效率。本文介绍一款工具——咕嘎批量OCR系统，帮助用户快速处理图片型PDF文件，支持区域识别、内容提取、导出表格及批量改名等功能。下载工具后，按步骤选择处理模式、进行区域采样、批量处理文件，几分钟内即可高效完成数百个文件的处理。

老乡别走

609 8 8

热门文章

最新文章

Excel 如何利用Pivot Table将日期时间直接分类为月汇总

Excel中如何批量重命名工作表与将每个工作表导出到单独Excel文件

如何根据Excel某列数据为依据分成一个新的工作表

SQL 从Excel导入数据

Excel 如何将表中行列互换

将Excel特定某列数据删除

Excel中如何设置随机密码

如何使用Excel将某几列有值的标题显示到新列中

Python 办公实战：用 python-docx 自动生成 Word 文档

推荐一款Python开源的AI自动化工具：Browser Use

解决PuppeteerSharp生成PDF颜色问题的最佳实践

【科研技巧】Mac 系统如何给Endnote 20添加某篇文献信息和附加PDF文件

利用Spire.Pdf实现PDF添加印章的操作

在Winform分页控件中集成导出PDF文档的功能

怎么通过itextpdf架包实现报表导出为pdf文件？

Django 如何使用视图动态输出 CSV 以及 PDF

超实用工具分享！Gotenberg，让你的文档转换PDF无缝对接

在Vue&Element前端项目中，使用FastReport + pdf.js生成并展示自定义报表

在Winform程序中使用Spire.Pdf实现页面添加印章处理

印刷文字识别使用问题之如何识别pdf文件中的表格

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

Python新手入门（Anolis OS）

Python新手入门

推荐镜像

更多

python-release

下一篇

快手商品数据采集神器，助你轻松获取商品详情数据

目录

目录

你好，我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源

状态一览

快捷访问

快捷注册登录阿里云