文档备案控制台

开发者社区人工智能文章正文

用 Python 开发了一个 PDF 抽取表格的小工具

2022-12-10 345

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 用 Python 开发了一个 PDF 抽取表格的小工具

大家好哇

从 PDF 里 copy 表格时，粘贴出来后格式都是错乱的。这麻烦事交给 Python 再合适不过，所以，我开发了一个从 PDF 抽取表格另存为 Excel 文件的应用，已把它部署到 huggingface ,同学可以直接去感受一下：

https://huggingface.co/spaces/beihai/PDF-Table-Extractor

使用方法

准备一个PDF（暂不支持扫描版）

页面中上传PDF，也不支持200M以上的文件，如果太大，大家可以先去压缩一下，我记得adobe官网有就类似小工具。

上传完成后，选择表格所在PDF的页码，等待片刻就会出现“提取完成，点击下载”

下载Excel，格式还需要微调，不过比直接复制出来的要好很多了，能节省一些时间。

目前这个工具还在完善，比如直接抽取PDF中所有表格，敬请期待。

实现方法周末再公布吧，其实经常看我文章的同学应该都很熟悉了吧。之前在腾讯的这个算法，我搬到了网上，随便玩！一文中有介绍。

本文代码能在huggingface看到，其实也是刚刚调试好，觉得有用，期待三连。

文章标签：

Python

算法

关键词：

PDF表格

Python工具

Python PDF

Python开发

PDF工具

玩机器学习的章北海-13621

目录

相关文章

程序员成长之路

|

10月前

|

存储缓存测试技术

理解Python装饰器：简化代码的强大工具

理解Python装饰器：简化代码的强大工具

程序员成长之路

313 97 97

游客fuyq5xtd5duvw

|

12月前

|

数据安全/隐私保护 Python

微信群成员导出工具，微信群成员导出软件，微信群管理工具软件【python】

这个工具提供了完整的微信群成员导出功能，包括登录微信、获取群列表、导出成员信息到Excel等功能

游客fuyq5xtd5duvw

946 0 0

纠结这个

|

11月前

|

程序员测试技术开发者

Python装饰器：简化代码的强大工具

Python装饰器：简化代码的强大工具

纠结这个

343 92 92

老乡别走

|

9月前

|

机器学习/深度学习文字识别 Shell

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

针对铁路货运物流单存档需求，本项目基于WPF与飞桨OCR技术，实现批量图片多区域文字识别与自动重命名。用户可自定义识别区域，系统提取关键信息（如车号、批次号）并生成规范文件名，提升档案管理效率与检索准确性，支持PDF及图像文件处理。

老乡别走

1304 48 49

一个程序员

|

10月前

|

机器学习/深度学习编解码 Python

Python图片上采样工具 - RealESRGANer

Real-ESRGAN基于深度学习实现图像超分辨率放大，有效改善传统PIL缩放的模糊问题。支持多种模型版本，推荐使用魔搭社区提供的预训练模型，适用于将小图高质量放大至大图，放大倍率越低效果越佳。

一个程序员

796 3 3

站大爷

|

11月前

|

人工智能自然语言处理安全

Python构建MCP服务器：从工具封装到AI集成的全流程实践

MCP协议为AI提供标准化工具调用接口，助力模型高效操作现实世界。

站大爷

1795 1 3

站大爷

|

10月前

|

算法安全数据安全/隐私保护

Python随机数函数全解析：5个核心工具的实战指南

Python的random模块不仅包含基础的随机数生成函数，还提供了如randint()、choice()、shuffle()和sample()等实用工具，适用于游戏开发、密码学、统计模拟等多个领域。本文深入解析这些函数的用法、底层原理及最佳实践，帮助开发者高效利用随机数，提升代码质量与安全性。

站大爷

1348 0 0

游客ledpmolauvkeg

|

11月前

|

API 数据安全/隐私保护 Python

拼多多批量上架软件，电商一键上货发布工具，python电商框架分享

多线程批量上传架构，支持并发处理商品数据完整的拼多多API签名和token管理机制

游客ledpmolauvkeg

916 0 0

游客ledpmolauvkeg

|

11月前

|

安全 API 数据安全/隐私保护

拼多多批量发布工具，拼多多批量上架软件，拼多多一键上传发布工具【python】

该工具主要功能特点：完整的API签名生成机

游客ledpmolauvkeg

823 0 0

游客ledpmolauvkeg

|

11月前

|

Java API 数据安全/隐私保护

淘宝一键上货发布软件，淘宝批量发布上架工具，淘宝批量上架脚本【python】

这个Python脚本实现了以下功能：完整的淘宝API调用封装

游客ledpmolauvkeg

680 0 0

热门文章

最新文章

蓝桥杯历届真题题目+解析+代码+答案（2013-2020）（JavaA、B、C组）（C++语言）（Python）

Python数据可视化三部曲之 Matplotlib 从上手到上头（下）

Python与R的异同（二）：字符串操作

python的文件与文件系统

Python学习计划（1）

Python 使用SMOTE解决数据不平衡问题(最新推荐)

python人工智能数据算法（下）（一）

用Python做一个电影订票系统

Python解决鸡兔同笼问题

6.python之random随机模块

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

深度剖析：PDF 工具箱功能，编辑器操作及页面 / 图像提取技巧

Python实现PDF图片OCR识别：从原理到实战的全流程解析

公众号如何添加附传Word、Excel、Pdf、PPT文档

公募REITs公告PDF文档处理项目

LangChain默认工具正在污染你的知识库！PDF解析崩溃真相

基于iTextSharp实现PDF加密功能

Python 自动化办公神器｜一键转换所有文档为 PDF

Python实现Word转PDF全攻略：从入门到实战

05百融云策略引擎项目交付-laravel实战完整交付定义常量分文件配置-独立建立lib类处理-成功导出pdf-优雅草卓伊凡

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

对象存储实战指南-试读

OpenAnolis 龙蜥操作系统开源社区技术创新白皮书

使用CNFS搭建弹性Web服务

推荐镜像

更多

python-release

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！