查发票|发票查验|验证码识别|批量查验|发票验真

简介: 昨天我开始对发票查验最耗时的环节-验证码识别下手,通过使用5000多张打码图片对PaddleOCR的模型进行训练后,识别率获得了很大提升。

接着上次发票查验继续说说我这两天的进展(上一篇文章可以在我的主页中找到)。昨天开始我对耗时最大的验证码识别环节开始下手,去色前的图片如下图所示:


微信图片_20240515205226.png

通过去色处理(代码见我上一篇文章)后得到的图片如下图所示:


微信图片_20240515205231.png


可以看到,我去色后的图片也都进行了打码处理,打码我找了一家本地的公司,花了点小钱,但是后面确实能解决大问题。得到单色图片后,我就开始对PaddleOCR的开源模型进行训练,训练的过程网上也有教程我这里不再赘述,我训练所用的打码图片有5000多张,都是PaddleOCR识别结果不正确的图片,经过十几分钟的训练在评估测试中就有很好的得分。我用训练好的模型进行国税开票平台的验证码识别,发现识别率有了显著的提升,从之前的不到60%直接干到了85%左右,效果非常明显,但可能是我训练的打码图片里面包含中文字的比较少,我觉得如果打码图片能够在几万张的话,识别率估计就能95%以上了。整体单张发票的查验时间从之前的10秒减少到了6秒左右。

相关文章
|
Java Android开发
eclipse下载与安装步骤详解,包含解决错误(最全最详细,多图)
eclipse下载与安装步骤详解,包含解决错误(最全最详细,多图)
|
3月前
|
XML 人工智能 Java
java实现PDF 电子签章
本文介绍了使用Java将Word文档转换为PDF并添加水印、签名和盖章的方法。通过Apache POI读取Word内容,结合OpenPDF生成PDF文件,并利用PdfPageEvent接口实现页面水印与签名功能。代码示例清晰展示了转换流程及关键实现细节。
212 0
|
测试技术
发票查验,发票采集,免验证码,批量查验,系统集成,代码分享之一
发票查验-免验证码,支持批量查验,系统集成,代码分享,有测试环境,从发票采集到发票查验再到查验结果应用的闭环实现
357 0
|
8月前
|
JSON 数据挖掘 API
lazada商品详情接口 (lazada API系列)
Lazada 是东南亚知名电商平台,提供海量商品资源。通过其商品详情接口,开发者和商家可获取商品标题、价格、库存、描述、图片、用户评价等详细信息,助力市场竞争分析、商品优化及库存管理。接口采用 HTTP GET 请求,返回 JSON 格式的响应数据,支持 Python 等语言调用。应用场景包括竞品分析、价格趋势研究、用户评价分析及电商应用开发,为企业决策和用户体验提升提供有力支持。
289 21
|
7月前
|
存储 编解码 搜索推荐
课时10:阿里云视频服务
阿里云视频服务Apsara Video为企业提供一站式视频解决方案,涵盖开发、上传、转码、存储、分发和播放全流程。平台支持点播、直播等业务,零编码搭建快速高效,具备窄带高清、画质重生等先进技术,确保高质量视频传输。同时,丰富的安全防护工具保障内容安全,按需付费模式降低成本,助力企业轻松构建个性化视频应用。
156 0
|
Java
JPA 表名大小写问题
JPA 表名大小写问题
177 1
|
存储 Python
python 键错误(KeyError)
【7月更文挑战第20天】
727 2
|
机器学习/深度学习 Python
【Python】已解决:ModuleNotFoundError: No module named ‘paddle’
【Python】已解决:ModuleNotFoundError: No module named ‘paddle’
1637 1
|
运维 架构师 算法
全球仅通过不到 2000 位的 Elastic 认证工程师,到底难不难?
全球仅通过不到 2000 位的 Elastic 认证工程师,到底难不难?
|
SQL Oracle 关系型数据库
oracle在sql中判断字段值是数字还是字符串
oracle在sql中判断字段值是数字还是字符串