深源恒际医疗票据OCR落地九省市 服务范围覆盖过半市场

本文涉及的产品
票证核验,票证核验 50次/账号
文档理解,免费额度 各100页
自定义KV模板,自定义KV模板 500次/账号
简介: 保险科技公司深源恒际从健康险核赔理算业务场景入手,研发了医疗票据OCR产品,基于深度学习算法下的专项模型训练,自动识别、提取医疗票据上的核心理算信息,并将结构化的信息录入理算系统,旨在通过计算机视觉替代人力作业,大幅降低人力投入、缩短业务耗时,帮助健康险提升理赔服务效率、优化理赔服务体验。

近年来,我国健康险市场规模持续保持高增长。银保监会最新统计数据显示,2019年中国健康险业务原保险保费收入6564亿元,同比增长29.75%。同时,随着民众风险保障意识的不断提升,未来健康险仍有巨大的潜在增长空间。据天风证券研报预测,未来五年内健康险复合增速将保持在20%左右。

与市场规模呈正相关,健康险理赔案件数也在逐年走高。据了解,自2015年起,健康险理赔案件数量和赔付金额正以年均20%的速度增长。因此,如何提升服务效率、优化服务体验,成为保险机构增强市场竞争力的重要抓手。

保险科技公司深源恒际从健康险核赔理算业务场景入手,研发了医疗票据OCR产品,基于深度学习算法下的专项模型训练,自动识别、提取医疗票据上的核心理算信息,并将结构化的信息录入理算系统,旨在通过计算机视觉替代人力作业,大幅降低人力投入、缩短业务耗时,帮助健康险提升理赔服务效率、优化理赔服务体验。

截至目前,该产品已先后在北京、天津、上海、广东、浙江、江苏、山东、河南及河北九省市完成落地,预估服务范围覆盖健康险过半市场。

01
切中要害 直击痛点

出于行业监管因素,目前商业医保机构无法直接获取或即时共享到投保用户的医疗信息。在涉及健康险理赔时,理算人员需要从用户提交的医疗单据上获取原始的理算数据,并将相关信息逐项录入系统,通常单个案件涉及录入的信息多达百余项。而人工录入的作业方式不够经济,一方面人工作业难免出现错漏,影响理算准确性,容易造成理赔渗漏,另一方面配置大量人力资源从事高度重复的事务性工作,耗时费力、效率低下。

深源恒际基于OCR识别技术,开发了集识别、提取、结构化功能于一体的信息识别录入自动化解决方案。在健康险核赔理算中,自动从各类医疗票据图像中识别、提取出理算所需的字段信息,并同步完成结构化录入,大幅缩短信息处理耗时,减少八成以上人力投入,使理赔效率整体提升60%-80%。同时,医疗票据OCR的应用,有助于健康险机构优化人力资源配置,基于流程自动化而释放的劳动力可参与从事对脑力依赖更强的工作。

目前,支持识别录入的票据类型包括门诊发票、住院发票、医保结算单、费用清单,字符识别准确率超过98%。

02
对症下药 攻破难点

事实上,医疗票据OCR在实际落地应用中面临诸多技术难点,如票面信息模糊、发票折叠畸变、内容重叠、信息串行等,均会对识别准确率形成干扰,给算法模型训练带来相应挑战。为降低、消弭噪音,深源恒际结合多种图像处理技术,在不损害文字信息的前提下排除干扰因素,让识别模型具备很好的抗干扰能力和鲁棒性。

image.png

首先,医疗票据在全国范围内没有统一的制版格式,各地版式差异明显。面对此类情形,通用OCR算法难以突破模版多样化的问题。深源恒际针对各地模版进行独立强化训练,在模型训练中增强特征提取细粒度,根据不同模版上的启发性信息辅助文字区域的定位和切分,弱化版式差异带来的不良影响。目前,已有包含北京、天津、上海、广东、浙江、江苏、山东、河南及河北九省市在内的票据模版完成针对性强化训练并发布上线。

其次,医疗票据多采用数据与格式分离的套打方式,在OCR识别中通常会带来两方面困扰:一是套打发票大多采用针式打印技术,图像分辨率低、打印字迹模糊,影响识别准确率;二是难免出现机打信息和印刷信息串行或内容重叠的情形,串行增加了信息提取难度,影响数据结构化;内容重叠造成部分信息被遮挡,在文本检测时容易导致漏检,在文本识别时容易导致误识。

深源恒际基于深度学习算法,通过图层分离技术解决了突破性地解决了套打票据识别中存在的技术难题,使识别准确率大幅提升。

图层分离:通过大量分析样本数据,提取机打部分与印刷部分的差异化特征,强化特征提取细粒度,基于深度学习方法搭建像素级图层分离模型,实现从原始图像中分离出机打信息与印刷信息,通过图层分离完成信息剥离。

坐标定位:图层分离后,基于图像识别技术获取所有文本条目的坐标信息,通过传统匹配算法完成印刷类文本条目坐标信息与机打类文本条目坐标信息的关联,实现印刷字段信息与机打字段信息的匹配,从而解决信息串行带来的干扰。

双识别模型:针对机打和印刷两类文本信息分别训练算法模型,大幅提升图层分离精确度,降低信息重叠带来的干扰。

再次,为确保理算信息完整无误,深源恒际提出“机器校验为主、人工复核为辅”的校验机制,开发了多重校验规则引擎。基于字段间的内在逻辑与关联关系,自动甄别置信度较低的字段信息,对存疑的高风险信息进行预警提示,并依据内在逻辑对可能出错的数据进行启发式纠正;对于模糊文字,则通过医疗词典库进行智能校验。综合多种方式辅助复核,快速完成数据的校验与纠正,为理算提供完整、精确的数据依据。

此外,医疗票据OCR服务与健康险理算中常用的智能理算规则引擎相衔接,可实现从信息录入到结果输出全面自动化,让健康险理赔真正驶入快车道。

未来,深源恒际将持续迭代算法模型,进一步扩大产品落地范围,在不间断的落地应用中优化产品性能,将技术创新优势延展到行业全流程中,打造全栈式智能服务。

相关文章
|
2月前
|
文字识别
文字识别OCR常见问题之卡证票据包含营业执照如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
|
2月前
|
文字识别 API 开发工具
阿里云文字识别OCR服务确实支持将识别结果以键值对(key-value)的形式返回
【2月更文挑战第5天】阿里云文字识别OCR服务确实支持将识别结果以键值对(key-value)的形式返回
67 3
|
2月前
|
文字识别 API 数据安全/隐私保护
可以使用阿里云文字识别服务中的个人证照识别功能。
可以使用阿里云文字识别服务中的个人证照识别功能。【1月更文挑战第21天】【1月更文挑战第102篇】
28 1
|
25天前
|
文字识别
印刷文字识别产品使用合集之可以支持对哪些类型的票据进行识别支持数电发票的ocr识别吗
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
2月前
|
文字识别
印刷文字识别产品使用合集之手写识别服务,能单独识别出来手写的选项吗
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
2月前
|
文字识别 API 开发工具
当您使用OCR服务进行页面图片文字识别时,接口返回的结果通常是一个字典
【2月更文挑战第7天】当您使用OCR服务进行页面图片文字识别时,接口返回的结果通常是一个字典
46 4
|
2月前
|
JSON 文字识别 API
文字识别OCR服务通常提供了一种API接口
【2月更文挑战第5天】文字识别OCR服务通常提供了一种API接口
61 4
|
2月前
|
文字识别 API 数据安全/隐私保护
以使用阿里云文字识别服务中的个人证照识别功能
以使用阿里云文字识别服务中的个人证照识别功能【1月更文挑战第24天】【1月更文挑战第118篇】
110 2
|
25天前
|
JSON 文字识别 API
印刷文字识别操作报错合集之在识别过程中报错403,是什么原因
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
25天前
|
文字识别 自然语言处理 开发工具
印刷文字识别产品使用合集之OCR统一识别功能已开通,响应为200但没有content信息,是什么原因
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

热门文章

最新文章