基于PaddleOCR的体检报告识别(一)

简介: 面对飞速发展互联网医疗时代,医疗信息化建设已经成为医疗行业发展的趋势。经调研,约80%的医学病历是处于非结构化状态的,难以直接被利用而造成了大量医学资源浪费。医疗数据中大量的半结构化与无结构化的文本,医学术语的专业性以及语言表达的多样性为结构化信息抽取带来了很大难度。因此,针对电子病历和报告的信息识别抽取和结构化管理对临床诊断、疾病预防与医学研究具有重要意义。

基于PaddleOCR的体检报告识别


一、项目背景与意义

    面对飞速发展互联网医疗时代,医疗信息化建设已经成为医疗行业发展的趋势。经调研,约80%的医学病历是处于非结构化状态的,难以直接被利用而造成了大量医学资源浪费。医疗数据中大量的半结构化与无结构化的文本,医学术语的专业性以及语言表达的多样性为结构化信息抽取带来了很大难度。因此,针对电子病历和报告的信息识别抽取和结构化管理对临床诊断、疾病预防与医学研究具有重要意义。


   体检报告识别可以帮助医务服务人员自动识别录入用户征信信息,节约人力成本、提升服务效率,实现降本增效,具有重要实际意义。基于PaddleOCR已在文字识别领域取得优秀成果,本项目基于PaddleOCR实现体检报告检测与识别,对数据进行结构化处理,结合CV+NLP技术达到一定识别精度,未来推广应用场景可以基于识别信息做个性化疾病预测与健康推荐。


二、项目链接

PaddleOCR体检报告识别 - 飞桨AI Studio


三、项目流程

PaddleOCR是百度开源的超轻量级OCR模型库,本文使用其框架进行体检报告识别,本次项目具体流程包括:


PaddleOCR环境安装与快速预测

体检报告检测模型训练det

体检报告识别模型训练rec


四、技术介绍

针对PaddleOCR提供的算法模型,本次选择基础模型用于体检报告识别与检测,流程如下:

image.png


1.检测:DB算法

image.png


文字检测参考这篇:

OCR文字识别技术总结(三)__文本检测算法总结


2.识别:CRNN+CTC

CRNN可参考这篇文章:

CRNN文字识别_GoAI的博客-CSDN博客_crnn


目录
相关文章
|
3月前
|
安全 JavaScript 前端开发
JAVA药物不良反应(Adverse Drug Reaction,ADR)智能监测系统源码
ADR智能监测系统由系统管理、规则管理、监测报告三个大的功能模块组成。方便药师维护监测规则知识库,以及监测主题库,提高临床工作效率。
19 0
|
5月前
|
消息中间件 缓存 运维
【Java】医院云HIS信息管理系统源码:实现检验、检查、心理CT、B超等医技报告查看
【Java】医院云HIS信息管理系统源码:实现检验、检查、心理CT、B超等医技报告查看
50 0
|
5月前
|
运维 监控 Oracle
医学检验科LIS系统源码 样本采集、检验、分析
医学检验科LIS系统源码 样本采集、检验、分析
27 0
|
5月前
|
存储 固态存储 数据安全/隐私保护
医学影像PACS临床信息系统源码
医学影像PACS临床信息系统源码
31 0
|
4月前
|
固态存储 数据安全/隐私保护 计算机视觉
C++医院影像科PACS源码:三维重建、检查预约、胶片打印、图像处理、测量分析等
C++医院影像科PACS源码:三维重建、检查预约、胶片打印、图像处理、测量分析等
53 0
|
5月前
|
前端开发 JavaScript BI
【C#】云LIS检验医学信息系统源码
【C#】云LIS检验医学信息系统源码
43 0
|
5月前
|
存储 安全
支持CT、彩色超声、内窥镜检查的医院影像PACS系统源码(三维重建技术)
支持CT、彩色超声、内窥镜检查的医院影像PACS系统源码(三维重建技术)
24 0
|
12月前
|
网络协议 数据安全/隐私保护
|
12月前
|
存储 文字识别
核酸结果统计难?130行代码实现基于ocr的核酸截图识别存储Excel(复现代码核查核酸报告)
核酸结果统计难?130行代码实现基于ocr的核酸截图识别存储Excel(复现代码核查核酸报告)
104 0
|
12月前
|
存储 数据安全/隐私保护 C++
C++编程医院医学影像系统PACS,包含使用手册和CT操作说明书
首先,PACS系统可实现三维重建、检查预约、病人信息登记、计算机阅片、电子报告书写、胶片打印、数据备份等一系列满足影像科室日常工作的功能,并且由于影像数字化存储,用户可利用影像处理与测量技术辅助诊断、方便快捷地查找资料或利用网络将资料传输至临床科室,还可与医院HIS、LIS无缝连接。
208 0