用Python 从 PDF 抽取 Excel 2.0

简介: 用Python 从 PDF 抽取 Excel 2.0

前些天向大家介绍了我开发的从PDF抽取表格小工具的使用方法(⬅️点击直达),有同学反馈说有一些问题:


  • 一页PDF有多张表,只能抽取第一个
  • 有些表格线条是透明的,无法抽取
  • 一页一页处理太麻烦,不能一次性抽取


针对以上情况,我在原功能基础上进行了优化,本文依旧不涉及代码,具体实现过程我考虑在B站直播讲解。


这里就将优化部分的使用方法介绍一下


https://huggingface.co/spaces/beihai/PDF-Table-Extractor


单页PDF包含多个表格


这部分已经做了代码优化,前端也有一点点变化


640.png


选择具体页码后,自动弹出抽取完成,下载的Excel包含多个sheet页,对应多张表格。


表格线条是否透明


有些 PDF 中的表格线条是透明的,比如下图这种情况


640.png


大家可以在线条是否透明下拉框选择 True


640.png


一键全页抽取


如果想要抽取一个PDF中所有的表格,在页码处填写 all 即可。


当然,如果页码较多,如此操作会很慢,需要耐心等待。

也可以填页码区间,比如1-3页就填1-3,第十页到最后一页,可以填10-end

640.png


如果某些表格没有被提取,可以重新选择表格线条是否透明重跑一下。


640.png


以上。欢迎三连。


另。


直播暂定周日晚,欢迎来波关注,届时会在动态发预告

相关文章
|
2天前
|
数据采集 数据挖掘 关系型数据库
Excel计算函数(计算机二级)(1),2024年最新2024Python架构面试指南
Excel计算函数(计算机二级)(1),2024年最新2024Python架构面试指南
|
2天前
|
Python
【Python3 查询手册学习】,完整版PDF开放下载_python速查手册·模块卷(全彩版) pdf(1)
【Python3 查询手册学习】,完整版PDF开放下载_python速查手册·模块卷(全彩版) pdf(1)
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
Python转换Excel到Markdown
Python转换Excel到Markdown
9 0
|
4天前
|
Python
python如何读取excel文件,并修改内容?
python如何读取excel文件,并修改内容?
9 0
|
4天前
|
存储 数据采集 数据可视化
Python列表到Excel表格第一列的转换技术详解
Python列表到Excel表格第一列的转换技术详解
9 0
|
4天前
|
前端开发 文件存储 Python
python之xhtml2pdf: HTML转PDF工具示例详解
python之xhtml2pdf: HTML转PDF工具示例详解
12 0
|
4天前
|
存储 Python Windows
轻松学会openpyxl库,Python处理Excel有如神助
轻松学会openpyxl库,Python处理Excel有如神助
|
4天前
|
NoSQL Python
在Python中,我们可以使用许多库来处理Excel文件
Python处理Excel常用pandas和openpyxl库。pandas的`read_excel`用于读取文件,`to_excel`写入;示例展示了数据框操作。openpyxl则用于处理复杂情况,如多工作表,`load_workbook`加载文件,`iter_rows`读取数据,`Workbook`创建新文件,写入单元格数据后保存。
25 1
|
4天前
|
easyexcel
【EasyExcel】第二篇:导出excel文件,导出多个sheet工作空间
【EasyExcel】第二篇:导出excel文件,导出多个sheet工作空间
|
4天前
|
Java
java导出复杂excel
java导出复杂excel