OCR:实现信息结构化提取 助力信息数字化管理 ——基于OCR的机动车销售统一发票识别提取自动化应用案例-阿里云开发者社区

开发者社区> 云市场头条> 正文
登录阅读全文

OCR:实现信息结构化提取 助力信息数字化管理 ——基于OCR的机动车销售统一发票识别提取自动化应用案例

简介: 为降低信息提取成本、优化业务处理效率,深源恒际依托自身在OCR技术上的积累,打造了机动车销售统一发票信息识别提取自动化解决方案,自动检测、识别、提取发票信息,并根据实际应用需求输出结构化文本,由计算机替代人工作业,高效、准确地完成信息提取。

目前,机动车市场最常见的销售流通模式主要以厂商授权、渠道经销为主,汽车厂商需要基于数据信息掌握各渠道(如经销商、代理机构等)的销售情况,以便实现销售管理,准确评估销售资源、规划销售网络布局。

为及时掌握销售数据,汽车厂商要求经销商统一上传机动车销售统一发票扫描件或复印件,并在业务管理平台上填报相关销售数据,录入字段繁多,人工操作耗时费力且容易出错。

为降低信息提取成本、优化业务处理效率,深源恒际依托自身在OCR技术上的积累,打造了机动车销售统一发票信息识别提取自动化解决方案,自动检测、识别、提取发票信息,并根据实际应用需求输出结构化文本,由计算机替代人工作业,高效、准确地完成信息提取。

_1
(机动车销售统一发票识别示例)

在通用OCR技术基础上,基于深度学习+专项训练方法,深源恒际研发了机动车销售统一发票专用识别算法模型,可自动检测、识别、提取票面上的所有字段信息,如机打代码、机打号码、开票日期、车辆识别代号/车架号码(VIN)、价税合计、不含税价等。当经销商上传发票扫描件时,系统将自动识别并结构化提取发票上的核心字段信息,并实现同步录入。目前,字段识别准确率已超过98%,单张发票处理时长不超过1s。

为优化识别准确率,深源恒际在模型开发中内置了多重校验规则:基于各字段间的内在逻辑和关联关系,自动甄别置信度较低的字段信息,并根据校验逻辑对可能出错的信息进行智能纠正,让识别准确率持续提升。

机动车销售统一发票作为汽车销售与购买的唯一凭证,在车主向税务机关申报车购税时或去车管所进行车辆登记时都会用到,这些场景下同样涉及发票信息数据的流转。基于OCR自动识别提取信息,不仅让有用的数据在厂商与渠道商之间有效流转,也可以在车辆报税和车辆登记环节帮助相关机构、部门高效提取信息,甚至实现流程线上化、服务便民化。

目前,机动车销售统一发票OCR产品已上线阿里云云市场,用户可通过阿里云云市场体验服务。

未来,鉴于丰富场景下的多元化需求,深源恒际将依托OCR技术为用户提供场景化的技术解决方案。以深度学习为引擎,为云市场生态用户构建满足应用需求的专用识别模型,帮助用户实现信息管理数字化。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享: