Python + 腾讯云,多页PDF发票识别一键搞定!

简介: 程序员晚枫团队推出了基于Python和腾讯云的多页PDF发票识别功能!通过一行代码即可实现整本PDF发票的高效识别,并直接导出为Excel文件,极大提升工作效率。此次更新修复了仅识别第一页的bug,支持多页PDF完整识别。未来还将拓展更多票据类型、优化速度并加强平台合作。欢迎用户体验并提出建议,共同推动开源项目poocr的成长与进化!

Python + 腾讯云,多页PDF发票识别一键搞定!

大家好,这里是程序员晚枫,全网同名。本周,我们poocr团队又带来了一个超实用的功能升级:支持多页PDF的发票识别!这意味着你可以用一行代码轻松识别整本发票PDF,效率直接拉满!🚀

1. 本周大更新:多页PDF发票识别来袭!

Snipaste_2025-04-03_22-20-38.jpg

在poocr 1.0.0版本中,我们全面支持了腾讯、百度、华为、阿里等大厂的OCR接口(详情见poocr 1.0.0发布)。而本周,我们又针对多页PDF发票识别进行了专项优化。现在,无论是单页还是多页PDF,都能一键识别,结果直接导出为Excel,方便到让人尖叫!

# pip install poocr
import poocr

poocr.ocr2excel.VatInvoiceOCR2Excel(intput_path=r'C:\Users\Lenovo\Desktop\temp\增值税发票-test.jpg',
                                    output_excel='./晚枫.xlsx',
                                    configPath='./poocr-config.toml')

2. 团队协作的力量:从bug到完美

微信图片_2025-04-03_221940_236.png

这次功能更新由团队小伙伴@wzllby主导开发,中途还经历了一次“小插曲”。在首次发版时,我们发现了一个bug:只能识别PDF的第一页发票明细(见修复记录)。发现问题后,团队迅速定位问题并修复,最终实现了完整的多页PDF识别功能。

这次经历让我再次感受到团队协作的力量!从一个人单打独斗,到如今有小伙伴一起“并肩作战”,poocr的每一步成长都离不开大家的努力。❤️

3. 持续进化:跟上腾讯云的脚步

poocr的目标是成为最易用的文字识别库,而腾讯云OCR的强大能力是我们的坚实后盾。未来,我们计划:

  1. 支持更多票据类型:如火车票、飞机票等。
  2. 优化识别速度:通过异步处理提升效率。
  3. 拓展更多平台合作:让识别更稳定、更精准。

如果你有想要的功能,欢迎直接在评论区“喊话”!我们的更新方向由你决定!😄

程序员晚枫的唠叨时间

我是程序员晚枫,一个热爱开源、专注Python自动化的技术博主。poocr从一个单打独斗的小项目,发展到如今被5.5万用户下载,离不开每一位用户的信任和支持。

如果你也喜欢poocr,欢迎加入我们的开源小组(评论区留言:“开源”)。一起码代码,一起搞事情!下一个改变产品方向的idea,可能就来自你!✨

互动话题:你最希望poocr新增什么功能?评论区见!

相关文章
|
9月前
|
Python
Python 压缩PDF减小文件大小
【8月更文挑战第6天】介绍了三种用Python压缩PDF文件的方法:1) 使用`pdfcompressor`库,安装后可通过简单命令压缩文件;2) 利用`PyPDF2`库,需手动设置压缩参数;3) 采用`pdfsizeopt`库,一键优化PDF大小。各方法均提供示例代码,便于快速实现文件压缩。
1148 0
|
8月前
|
Python
Python办公自动化:删除任意页数pdf页面
Python办公自动化:删除任意页数pdf页面
198 2
Python办公自动化:删除任意页数pdf页面
|
7月前
|
Python
Python对PDF文件页面的旋转和切割
Python对PDF文件页面的旋转和切割
125 3
|
7月前
|
计算机视觉 Python
Python操作PDF文件
Python操作PDF文件
106 1
|
7月前
|
存储 安全 网络安全
Python编程--使用PyPDF解析PDF文件中的元数据
Python编程--使用PyPDF解析PDF文件中的元数据
175 1
|
8月前
|
Python
Python办公自动化:提取pdf文件中的图片
Python办公自动化:提取pdf文件中的图片
141 0
|
9月前
|
Linux Python Windows
Python PDF文件转Word格式,只需要3秒(附打包)
Python PDF文件转Word格式,只需要3秒(附打包)
190 3
Python PDF文件转Word格式,只需要3秒(附打包)
|
7月前
|
IDE 开发工具 数据安全/隐私保护
Python编程实现批量md5加密pdf文件
Python编程实现批量md5加密pdf文件
90 0
|
9月前
|
数据安全/隐私保护 Python Windows
三种方法,Python轻松提取PDF中全部图片
三种方法,Python轻松提取PDF中全部图片
306 3
|
9月前
|
XML JSON 数据安全/隐私保护
PyMuPDF,Python处理PDF的宝藏库
PyMuPDF,Python处理PDF的宝藏库
267 2

热门文章

最新文章