健康险理算耗时长?OCR来助攻!

本文涉及的产品
通用文字识别,通用文字识别 200次/月
小语种识别,小语种识别 200次/月
自定义KV模板,自定义KV模板 500次/账号
简介: 深源恒际从健康险核赔理算业务场景入手,研发了医疗票据OCR产品,基于深度学习算法下的专项模型训练,自动识别、提取医疗票据上的核心理算信息,并将结构化的信息录入理算系统,以机器替代人力作业,大幅缩短了理算用时,进而提升健康险理赔服务效率。

近年来,我国健康险市场规模持续保持高增长。据行业数据统计,自2013年到2018年,健康险市场复合年均增长率达35.95%。而银保监会最新披露的数据显示,2019年Q1健康险原保费收入同比增速高达39.1%;据行业研究机构分析预测,我国健康保险保费收入将在2020年首次突破万亿元。

与市场规模呈正相关,健康险理赔案件数也在逐年走高。据了解,自2015年起,健康险理赔案件数量和赔付金额正以年均20%的速度增长。因此,如何提升理赔服务效率也是健康险机构重点考虑的问题。

640_3_jpeg

深源恒际从健康险核赔理算业务场景入手,研发了医疗票据OCR产品,基于深度学习算法下的专项模型训练,自动识别、提取医疗票据上的核心理算信息,并将结构化的信息录入理算系统,以机器替代人力作业,大幅缩短了理算用时,进而提升健康险理赔服务效率。

据深源恒际产品部介绍,医疗票据OCR产品预计年内在八省市完成落地。目前,已率先在北京、天津、上海、浙江四地展开试点合作;广东、山东、江苏、河南四省也已列入落地规划,预计年内上线。

640_2_jpeg

切中要害,直击痛点


出于行业监管因素,目前商业医保机构无法直接获取或即时共享到投保用户的医疗信息。在健康险理赔环节中,理算人员需要从用户提交的医疗票据图像上获取原始的理算数据,并将相关信息逐项录入系统,通常单个案件涉及录入的信息多达百余项。

而且,人工录入并不是最经济的解决方案:一是人工作业难免出现纰漏,影响理算准确性,容易造成理赔渗漏;二是大量人力从事高度重复的事务性工作,耗时费力、效率低下。

相比传统方式,OCR技术在信息识别录入上的应用可减少80%的人力作业。

面向健康险核赔理算业务场景,深源恒际打造了集识别、提取、结构化于一体的医疗票据信息识别录入自动化解决方案。基于OCR识别技术,结合专项训练+自适应提取方法,自动从医疗票据图片中识别、提取出理算所需的字段信息,并同步完成录入,以自动化方式帮助健康险机构快速、准确地完成理算信息的识别录入,让理赔效率整体提升60%-80%。目前,支持识别录入的票据类型包括门诊发票、住院发票、医保结算单、费用清单,字符识别准确率超过98%。

医疗票据OCR的应用,帮助健康险机构实现人力资源的优化,基于流程自动化而释放的劳动力可以从事对脑力依赖更强的工作;同时,让健康险理赔服务效率呈指数级提升,基于OCR处理单个案件用时仅几分钟,大幅缩短了理赔周期,用户体验明显提升。

对症下药,攻破难点


事实上,医疗票据OCR在实际落地应用中面临诸多技术难点,如票面信息模糊、发票折叠畸变、内容重叠、信息串行等,都会影响识别准确率,给算法模型带来极大挑战。为降低或消弭噪音,深源恒际结合多种图像处理技术,在不损害文字信息的前提下排除干扰因素,让识别模型具备很好的抗干扰能力和鲁棒性。

首先,医疗票据在全国范围内没有相对统一的制版格式,各地版式迥异。面对此类情形,通用OCR算法无法突破模版多样化的问题。

深源恒际针对各地模版进行独立强化训练,在模型训练中增强特征提取细粒度,根据不同模版上的启发性信息辅助文字区域的定位和切分,弱化版式差异带来的不良影响。目前,首批完成针对性强化训练的模型包括北京、天津、上海、浙江四省及部队医疗系统模版;随后,广东、山东、江苏、河南四省模版也将陆续在年内发布。

其次,医疗票据多采用数据与格式分离的套打方式,在OCR识别中通常会带来两方面困扰:一是套打发票大多采用针式打印技术,图像分辨率低、打印字迹模糊,影响识别准确率;二是难免出现机打信息和印刷信息串行或内容重叠的情形——串行加大了信息提取难度,影响数据结构化;内容重叠造成部分信息被遮挡,在文本检测时容易导致漏检,在文本识别时容易导致误识。
640_4_jpeg

深源恒际基于深度学习算法,通过图层分离技术解决了突破性地解决了套打票据识别中存在的技术难题,使识别准确率大幅提升。

图层分离:通过大量分析样本数据,提取机打部分与印刷部分的差异化特征,强化特征提取细粒度,基于深度学习方法搭建像素级图层分离模型,实现从原始图像中分离出机打信息与印刷信息,通过图层分离完成信息剥离。

坐标定位:图层分离后,基于图像识别技术获取所有文本条目的坐标信息,通过传统匹配算法完成印刷类文本条目坐标信息与机打类文本条目坐标信息的关联,实现印刷字段信息与机打字段信息的匹配,从而解决信息串行带来的干扰。

双识别模型:针对机打和印刷两类文本信息分别训练算法模型,大幅提升图层分离精确度,降低信息重叠带来的干扰。

再次,为确保理算信息完整无误,深源恒际提出“机器校验为主、人工复核为辅”的校验机制,开发了多重校验规则引擎。基于字段间的内在逻辑与关联关系,自动甄别置信度较低的字段信息,对存疑的高风险信息进行预警提示,并依据内在逻辑对可能出错的数据进行启发式纠正;对于模糊文字,则通过医疗词典库进行智能校验。综合多种方式辅助复核,快速完成数据的校验与纠正,为理算提供完整、精确的数据依据。

据了解,目前大多健康险机构均已启用智能理算规则引擎,即依托全国社保目录、疾病目录、药品目录等数据库关联规则自动计算理算结果。而医疗票据OCR的应用主要在于自动提取出理算所需的数据信息,为理算打好前站。如此一来,医疗票据OCR与智能理算规则引擎的无缝衔接,让健康险理算作业从信息录入到结果输出实现了全面自动化。

相关文章
|
7月前
|
文字识别 API 开发工具
文字识别OCR常见问题之买了资源包识别不成功扣次数如何解决
文字识别OCR(Optical Character Recognition)技术能够将图片或者扫描件中的文字转换为电子文本。以下是阿里云OCR技术使用中的一些常见问题以及相应的解答。
|
7月前
|
机器学习/深度学习 监控 对象存储
视觉智能平台常见问题之购买了资源包显示已超限如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
|
7月前
|
人工智能 文字识别
文字识别OCR怎么查询剩余流量和有效期呢?
文字识别OCR怎么查询剩余流量和有效期呢?
127 1
|
机器学习/深度学习 自然语言处理 搜索推荐
文本点击率预估挑战赛-冠亚季军方案总结(上)
文本点击率预估挑战赛-冠亚季军方案总结(上)
425 0
文本点击率预估挑战赛-冠亚季军方案总结(上)
|
4月前
|
缓存 负载均衡 算法
"揭秘!阿里云视觉智能开放平台人脸1vn搜索慢?轻松几招,QPS飙升,让你的应用快如闪电,用户体验秒变VIP级享受!"
【8月更文挑战第14天】在数字浪潮中,人脸识别技术广泛应用于安全监控到个性化服务等领域。阿里云视觉智能开放平台凭借其强大算法和服务模式成为行业翘楚。面对人脸1:Vn搜索响应慢的问题,不仅可通过增加QPS优化,还需从参数调整、缓存机制、并行处理及算法硬件升级等方面综合施策,以实现搜索速度与准确性的双重提升。
61 2
|
6月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之视频生成资源包提示QPS(每秒查询率)超限时,该如何扩容
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
机器学习/深度学习 人工智能 编解码
3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型
3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型
589 0
|
存储 架构师 文件存储
云端渲染时长1.58亿核小时,阿里云助力国漫巨制《新神榜:杨戬》提升视效
阿里云E-HPC为影视渲染全流程量身定做的方案有幸成为诸多中国数字内容创作佳片后的推手,带来生产关系的改变
云端渲染时长1.58亿核小时,阿里云助力国漫巨制《新神榜:杨戬》提升视效
|
机器学习/深度学习 存储 分布式计算
KDD 2022 | 快手提出基于因果消偏的观看时长预估模型D2Q,解决短视频推荐视频时长bias难题
KDD 2022 | 快手提出基于因果消偏的观看时长预估模型D2Q,解决短视频推荐视频时长bias难题
635 0
|
Web App开发 缓存 监控
CleanMyMac2023最全评测!价格、清理效果
如果你的macbook有点年头空间不够开始卡顿了,或者你是windows用户刚转来的,我强烈建议你安装一个cleanmymac!Mac电脑清理是可以直接使用储存空间管理(关于本机->储存空间->管理)来清理,但是这里的其他空间我们是无法进行操作的。小编给您带来cleanmymac 4中文版,CleanMyMac是应用在MacOS上的一款Mac系统清理优化工具,使用cleanmymac只需两个简单步骤就可以把系统里那些乱七八糟的无用文件统统清理掉,节省宝贵的磁盘空间!
121 0