在生活和工作中经常如有些:银行单据、税收单据、证券交易单据、销售合同、采购合同、海关报单、入库单、出库单等等大量的PDF文件文档
工欲善其工,必先利其器,用软件快速搞定,一分钟搞定几千份文档,靠人工复制肯定不行,几个小时的活甚至几天的活几分钟搞定!
第一步、下载软件
咕嘎批量PDF多区域内容提取重命名导表格系统
百度网盘:https://pan.baidu.com/s/1FjWiKqt93ECiVqNKmeOJOA?pwd=8866
腾讯网盘:https://share.weiyun.com/yw15BsM7
原文可以参考(视频教程):https://mp.weixin.qq.com/s/zNgOnAQYY-7lpwBOtqHV_g
第二步、打开工具
获取各项PDF各个区域内容数据的位置坐标
第三步、导入要处理的文件
1、导入第二步获取的坐标
2、加载要处理的PDF文件进行批量处理和改名
按照视频所述的方式我们就快速的将PDF电子发票的信息提取保存到表格了
第四步、复核校对文件内容信息
PDF提取内容保存表格预览复核校对:
PDF提取内容批量修改PDF名复核校对:
根据提取的单据关键信息对PDF文件进行重新命名。重命名的原则是使文件名具有明确的标识性,方便搜索、分类和管理。比如,对于银行单据可以命名为“[银行名称] - [账户号码] - [交易日期]”,税收单据命名为“[纳税人名称] - [税种] - [申报日期]”,销售合同命名为“[销售方名称] - [合同日期] - [客户名称] - [产品名称]”等。
这个没有用到阿里云的文字识别,因为我们处理的是电子版的,就直接从PDF里面按照我们的要求获取对应区域的数据就可以了,如果是图片的识别就需要用到阿里云的接口去进行文字识别后进行处理,对图片型PDF感兴趣的朋友可以看上一期图片型PDF区域识别即可