查发票|发票查验|验证码识别|批量查验|发票验真

简介: 昨天我开始对发票查验最耗时的环节-验证码识别下手,通过使用5000多张打码图片对PaddleOCR的模型进行训练后,识别率获得了很大提升。

接着上次发票查验继续说说我这两天的进展(上一篇文章可以在我的主页中找到)。昨天开始我对耗时最大的验证码识别环节开始下手,去色前的图片如下图所示:


微信图片_20240515205226.png

通过去色处理(代码见我上一篇文章)后得到的图片如下图所示:


微信图片_20240515205231.png


可以看到,我去色后的图片也都进行了打码处理,打码我找了一家本地的公司,花了点小钱,但是后面确实能解决大问题。得到单色图片后,我就开始对PaddleOCR的开源模型进行训练,训练的过程网上也有教程我这里不再赘述,我训练所用的打码图片有5000多张,都是PaddleOCR识别结果不正确的图片,经过十几分钟的训练在评估测试中就有很好的得分。我用训练好的模型进行国税开票平台的验证码识别,发现识别率有了显著的提升,从之前的不到60%直接干到了85%左右,效果非常明显,但可能是我训练的打码图片里面包含中文字的比较少,我觉得如果打码图片能够在几万张的话,识别率估计就能95%以上了。整体单张发票的查验时间从之前的10秒减少到了6秒左右。

相关文章
|
测试技术
发票查验,发票采集,免验证码,批量查验,系统集成,代码分享之一
发票查验-免验证码,支持批量查验,系统集成,代码分享,有测试环境,从发票采集到发票查验再到查验结果应用的闭环实现
347 0
|
7月前
|
人工智能 自然语言处理 算法
【Gemini怎么使用】:Gemini 2.0 国内使用指南
人工智能领域风起云涌,Google 凭借其 Gemini AI 模型的迭代升级,持续引领着技术革新的浪潮。特别是 Gemini 2.0 的发布,标志着 AI 发展进入了一个全新的阶段
5777 14
成功解决:Could not resolve dependency: npm ERR! peer vue@“^3.0.2“ from vuex@4.0.2
这篇文章讨论了在使用npm安装依赖时遇到的一个常见问题,即无法解析依赖导致的"peer dependency"冲突错误。文章提供了几种解决方法,包括清除npm缓存、删除`node_modules`文件夹和`package-lock.json`文件,然后重新尝试安装,以解决版本冲突问题。
|
存储 Python
python 键错误(KeyError)
【7月更文挑战第20天】
637 2
|
存储 API 开发工具
阿里云OSS
【7月更文挑战第19天】阿里云OSS
1311 2
|
人工智能 Java
通过okhttp调用SSE流式接口,并将消息返回给客户端
通过okhttp调用SSE流式接口,并将消息返回给客户端
|
安全 Java 数据安全/隐私保护
SpringBoot+Email发送邮件
邮件通知是现代应用中常见的一种通信方式,特别是在需要及时反馈、告警或重要事件通知的场景下。Spring Boot提供了简单而强大的邮件发送功能,使得实现邮件通知变得轻而易举。本文将研究如何在Spring Boot中使用JavaMailSender实现邮件发送,以构建一个可靠的通知体系。
516 1
SpringBoot+Email发送邮件
|
运维 架构师 算法
全球仅通过不到 2000 位的 Elastic 认证工程师,到底难不难?
全球仅通过不到 2000 位的 Elastic 认证工程师,到底难不难?
|
API
uniapp点击图片放大预览
uniapp点击图片放大预览
743 0
|
弹性计算 大数据 测试技术
阿里云8核16G云服务器并发承载量多少?2024年阿里云8核16G云服务器测评
阿里云8核16G云服务器采用了高性能的处理器和大容量内存,具备强大的计算能力和内存带宽,可以满足多个应用程序的同时运行和访问需求。阿里云8核16G云服务器的并发承载量同样受到多种因素的影响,如服务器配置、网络环境、应用程序的架构和优化等。选择云服务器时,除了考虑服务器的性能表现,还需要考虑其他因素,如云服务提供商的服务质量、技术支持、价格等。因此,建议在购买前进行充分的调研和测试,选择最适合自己需求的云服务器。