用 Python 开发了一个 PDF 抽取表格的小工具

简介: 用 Python 开发了一个 PDF 抽取表格的小工具

大家好哇


从 PDF 里 copy 表格时,粘贴出来后格式都是错乱的。这麻烦事交给 Python 再合适不过,所以,我开发了一个从 PDF 抽取表格另存为 Excel 文件的应用,已把它部署到 huggingface ,同学可以直接去感受一下:


https://huggingface.co/spaces/beihai/PDF-Table-Extractor


使用方法


准备一个PDF(暂不支持扫描版)


640.png


页面中上传PDF,也不支持200M以上的文件,如果太大,大家可以先去压缩一下,我记得adobe官网有就类似小工具。


640.png


上传完成后,选择表格所在PDF的页码,等待片刻就会出现“提取完成,点击下载”


640.png


下载Excel,格式还需要微调,不过比直接复制出来的要好很多了,能节省一些时间。


640.png


目前这个工具还在完善,比如直接抽取PDF中所有表格,敬请期待。


实现方法周末再公布吧,其实经常看我文章的同学应该都很熟悉了吧。之前在腾讯的这个算法,我搬到了网上,随便玩!一文中有介绍。


本文代码能在huggingface看到,其实也是刚刚调试好,觉得有用,期待三连。

相关文章
|
4天前
|
存储 NoSQL MongoDB
MongoDB数据库转换为表格文件的Python实现
MongoDB数据库转换为表格文件的Python实现
36 0
|
1天前
|
程序员 开发者 Python
Python中的装饰器:优雅而强大的函数修饰工具
在Python编程中,装饰器是一种强大的工具,它可以简洁地实现函数的增强、扩展和重用。本文将深入探讨Python中装饰器的工作原理、常见应用场景以及如何自定义装饰器,帮助读者更好地理解和运用这一重要的编程概念。
|
2天前
|
Python
【Python3 查询手册学习】,完整版PDF开放下载_python速查手册·模块卷(全彩版) pdf(1)
【Python3 查询手册学习】,完整版PDF开放下载_python速查手册·模块卷(全彩版) pdf(1)
|
2天前
|
SQL 物联网 关系型数据库
sqlmap工具的使用 (超详细附工具版)_python sqlmap
sqlmap工具的使用 (超详细附工具版)_python sqlmap
|
4天前
|
存储 数据采集 数据可视化
Python列表到Excel表格第一列的转换技术详解
Python列表到Excel表格第一列的转换技术详解
9 0
|
4天前
|
SQL 测试技术 网络安全
Python之SQLMap:自动SQL注入和渗透测试工具示例详解
Python之SQLMap:自动SQL注入和渗透测试工具示例详解
28 0
|
4天前
|
前端开发 文件存储 Python
python之xhtml2pdf: HTML转PDF工具示例详解
python之xhtml2pdf: HTML转PDF工具示例详解
12 0
|
4天前
|
Python
Python 中的异常处理机制是一种强大的错误处理工具
【5月更文挑战第8天】Python的异常处理机制借助try/except结构管理错误,提高程序健壮性。异常是中断正常流程的问题,可由多种原因引发。基本结构包括try块(执行可能出错的代码)和except块(处理异常)。通过多个except块可捕获不同类型的异常,finally块确保无论是否异常都执行的代码。此外,raise语句用于主动抛出异常,自定义异常通过继承Exception类实现。with语句配合上下文管理器简化资源管理并确保异常情况下资源正确释放。
21 2
|
4天前
|
缓存 开发者 Python
《Python中的装饰器:优雅而强大的代码增强工具》
在现代软件开发中,Python语言的灵活性和简洁性备受推崇。其中,装饰器作为一种强大的代码增强工具,为Python开发者提供了优雅的解决方案。本文将深入探讨装饰器的原理、用法以及实际应用场景,帮助读者更好地理解和运用这一技术。
|
4天前
|
机器学习/深度学习 边缘计算 TensorFlow
【Python机器学习专栏】Python机器学习工具与库的未来展望
【4月更文挑战第30天】本文探讨了Python在机器学习中的关键角色,重点介绍了Scikit-learn、TensorFlow和PyTorch等流行库。随着技术进步,未来Python机器学习工具将聚焦自动化、智能化、可解释性和可信赖性,并促进跨领域创新,结合云端与边缘计算,为各领域应用带来更高效、可靠的解决方案。