健康险理算耗时长？OCR来助攻！-阿里云开发者社区

健康险理算耗时长？OCR来助攻！

2019-09-23 2215

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 深源恒际从健康险核赔理算业务场景入手，研发了医疗票据OCR产品，基于深度学习算法下的专项模型训练，自动识别、提取医疗票据上的核心理算信息，并将结构化的信息录入理算系统，以机器替代人力作业，大幅缩短了理算用时，进而提升健康险理赔服务效率。

近年来，我国健康险市场规模持续保持高增长。据行业数据统计，自2013年到2018年，健康险市场复合年均增长率达35.95%。而银保监会最新披露的数据显示，2019年Q1健康险原保费收入同比增速高达39.1%；据行业研究机构分析预测，我国健康保险保费收入将在2020年首次突破万亿元。

与市场规模呈正相关，健康险理赔案件数也在逐年走高。据了解，自2015年起，健康险理赔案件数量和赔付金额正以年均20%的速度增长。因此，如何提升理赔服务效率也是健康险机构重点考虑的问题。

640_3_jpeg

深源恒际从健康险核赔理算业务场景入手，研发了医疗票据OCR产品，基于深度学习算法下的专项模型训练，自动识别、提取医疗票据上的核心理算信息，并将结构化的信息录入理算系统，以机器替代人力作业，大幅缩短了理算用时，进而提升健康险理赔服务效率。

据深源恒际产品部介绍，医疗票据OCR产品预计年内在八省市完成落地。目前，已率先在北京、天津、上海、浙江四地展开试点合作；广东、山东、江苏、河南四省也已列入落地规划，预计年内上线。

640_2_jpeg

切中要害，直击痛点

出于行业监管因素，目前商业医保机构无法直接获取或即时共享到投保用户的医疗信息。在健康险理赔环节中，理算人员需要从用户提交的医疗票据图像上获取原始的理算数据，并将相关信息逐项录入系统，通常单个案件涉及录入的信息多达百余项。

而且，人工录入并不是最经济的解决方案：一是人工作业难免出现纰漏，影响理算准确性，容易造成理赔渗漏；二是大量人力从事高度重复的事务性工作，耗时费力、效率低下。

相比传统方式，OCR技术在信息识别录入上的应用可减少80%的人力作业。

面向健康险核赔理算业务场景，深源恒际打造了集识别、提取、结构化于一体的医疗票据信息识别录入自动化解决方案。基于OCR识别技术，结合专项训练+自适应提取方法，自动从医疗票据图片中识别、提取出理算所需的字段信息，并同步完成录入，以自动化方式帮助健康险机构快速、准确地完成理算信息的识别录入，让理赔效率整体提升60%-80%。目前，支持识别录入的票据类型包括门诊发票、住院发票、医保结算单、费用清单，字符识别准确率超过98%。

医疗票据OCR的应用，帮助健康险机构实现人力资源的优化，基于流程自动化而释放的劳动力可以从事对脑力依赖更强的工作；同时，让健康险理赔服务效率呈指数级提升，基于OCR处理单个案件用时仅几分钟，大幅缩短了理赔周期，用户体验明显提升。

对症下药，攻破难点

事实上，医疗票据OCR在实际落地应用中面临诸多技术难点，如票面信息模糊、发票折叠畸变、内容重叠、信息串行等，都会影响识别准确率，给算法模型带来极大挑战。为降低或消弭噪音，深源恒际结合多种图像处理技术，在不损害文字信息的前提下排除干扰因素，让识别模型具备很好的抗干扰能力和鲁棒性。

首先，医疗票据在全国范围内没有相对统一的制版格式，各地版式迥异。面对此类情形，通用OCR算法无法突破模版多样化的问题。

深源恒际针对各地模版进行独立强化训练，在模型训练中增强特征提取细粒度，根据不同模版上的启发性信息辅助文字区域的定位和切分，弱化版式差异带来的不良影响。目前，首批完成针对性强化训练的模型包括北京、天津、上海、浙江四省及部队医疗系统模版；随后，广东、山东、江苏、河南四省模版也将陆续在年内发布。

其次，医疗票据多采用数据与格式分离的套打方式，在OCR识别中通常会带来两方面困扰：一是套打发票大多采用针式打印技术，图像分辨率低、打印字迹模糊，影响识别准确率；二是难免出现机打信息和印刷信息串行或内容重叠的情形——串行加大了信息提取难度，影响数据结构化；内容重叠造成部分信息被遮挡，在文本检测时容易导致漏检，在文本识别时容易导致误识。
640_4_jpeg

深源恒际基于深度学习算法，通过图层分离技术解决了突破性地解决了套打票据识别中存在的技术难题，使识别准确率大幅提升。

图层分离：通过大量分析样本数据，提取机打部分与印刷部分的差异化特征，强化特征提取细粒度，基于深度学习方法搭建像素级图层分离模型，实现从原始图像中分离出机打信息与印刷信息，通过图层分离完成信息剥离。

坐标定位：图层分离后，基于图像识别技术获取所有文本条目的坐标信息，通过传统匹配算法完成印刷类文本条目坐标信息与机打类文本条目坐标信息的关联，实现印刷字段信息与机打字段信息的匹配，从而解决信息串行带来的干扰。

双识别模型：针对机打和印刷两类文本信息分别训练算法模型，大幅提升图层分离精确度，降低信息重叠带来的干扰。

再次，为确保理算信息完整无误，深源恒际提出“机器校验为主、人工复核为辅”的校验机制，开发了多重校验规则引擎。基于字段间的内在逻辑与关联关系，自动甄别置信度较低的字段信息，对存疑的高风险信息进行预警提示，并依据内在逻辑对可能出错的数据进行启发式纠正；对于模糊文字，则通过医疗词典库进行智能校验。综合多种方式辅助复核，快速完成数据的校验与纠正，为理算提供完整、精确的数据依据。

据了解，目前大多健康险机构均已启用智能理算规则引擎，即依托全国社保目录、疾病目录、药品目录等数据库关联规则自动计算理算结果。而医疗票据OCR的应用主要在于自动提取出理算所需的数据信息，为理算打好前站。如此一来，医疗票据OCR与智能理算规则引擎的无缝衔接，让健康险理算作业从信息录入到结果输出实现了全面自动化。

健康险理算耗时长？OCR来助攻！

云市场头条

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

健康险理算耗时长？OCR来助攻！

云市场头条

热门文章

最新文章

相关电子书