本专栏内容持续更新中,部分内容在持续优化中!请稍安勿躁,部分内容有参考其他书籍或是网络文献,都会给出原始出处,如有侵权请联系删除
简介
在1956年的达特茅斯会议上,人工智能的概念第一次被真正提出来,其作为信息技术的一种,早在40多年前就已经实验性地参与到医疗行为中。1972年,利兹大学研发了医疗领域最早出现的人工智能系统,此系统主要用于腹部剧痛的辅助诊断及手术的相关需求。
人工智能作为一种技术,对生产工具进行了升级。人们可以通过人工智能快速地对行业数据和过往知识进行汇总和梳理,从而辅助人们做决策。
人工智能所起到的作用有两个方面:一是对过往知识的总结和判断,因为它的学习速度非常快,有极强的总结能力;二是基于过去的经验做决策,决策的正确性有明显提高。所以,人工智能在效率上和准确度上远远高于人的主观判断。
人工智能的应用在各行各业中都有相似或者相近的优势,目前主要有两大辅助作用:一是高效率地辅助决策,二是对项目运营进行优化。例如,在业务辅助方面,人工智能在医疗领域可以辅助医生进行诊断,在金融领域可以辅助用户进行自动交易;在管理优化方面,人工智能在医疗领域可以辅助医院进行管理,在零售领域可以对库存和交易流程进行优化。
健康是人类永恒的主题也是社会进步的重要标志,健康已成为新世纪人们生活的基本目标。大健康产业具有巨大的市场潜力,未来在我国经济结构向服务业转型过程中,大健康产业将成为我国国民经济支柱型产业
健康是人类永恒的主题也是社会进步的重要标志,健康已成为新世纪人们生活的基本目标。大健康产业具有巨大的市场潜力,未来在我国经济结构向服务业转型过程中,大健康产业将成为我国国民经济支柱型产业,本专栏将从保险、检验检测、医疗知识库等内容切入,深度还原大健康行业从无到有的场景落地实践经验总结。
场景建模与系统架构
大数据AI系统解决方案与技术架构针对日益场景的机器学习系统从设计模式、解决方案,逻辑架构出发给出最终落地实现的技术架构与深入思考。
医学AI 的未来 -- 医学知识库
医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。
然而,现有知识图谱构建技术在医学领域中普遍存在效率低,限制多,拓展性差等问题。针对医疗数据跨语种,专业性强,结构复杂等特点,对构建医学知识图谱的关键技术进行了自底向上的全面解析,涵盖了医学知识表示、抽取、融合和推理以及质量评估五部分内容。此外,还介绍了医学知识图谱在信息检索、知识问答、智能诊断等医疗服务中的应用现状。最后,结合当前医学知识图谱构建技术面临的重大挑战和关键问题,对其发展前景进行了展望。
- 大数据+AI在大健康领域中最佳实践前瞻 -- 医疗知识库构建前瞻
- 大数据+AI在大健康领域中最佳实践前瞻 -- 医疗知识库的升级版:医疗知识图谱前瞻
- 大数据+AI在大健康领域中最佳实践前瞻 -- 使用ElasticSearch 、数据库进行医疗基础数据标准化的方法
AI 业务开展的基础 -- 标注软件
数据标注有许多类型,如分类、画框、注释、标记等等。
常见的几种数据标注类型
1.分类标注:分类标注,就是我们常见的打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类/标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。
2.标框标注:机器视觉中的标框标注,很容易理解,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。
3.区域标注:相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。
4.描点标注:一些对于特征要求细致的应用中常常需要描点标注。人脸识别、骨骼识别等。
数据集
大家都知道深度学习的模型训练需要大量的数据样本,在完整的机器学习流程中通常包含训练集(Training Set)、测试集(Validation Set)和验证集(Test Set)三部分。这三部分的作用分别如下:
训练集:用于训练模型。
验证集:用于调整和选择模型。
测试集:用于评估最终的模型。
那么如何构建一个标准的医疗数据集呢,以下是一个参考思路:
美国的一部分医疗数据是通过HIPPA 脱密后在 https://www.hcup-us.ahrq.gov/ 网站上对研究者开放进行探索的。但是由于她给出的数据格式为asc 的不常见格式,我们需要转化成csv 后才能正常使用spark 等大数据分析组件进行分析。
还好2015年,有人用python 写了一个调用SAS 解析hcup 数据的开源库,那么今天我们就一起来探索一下,如何用python 对hcup 的asc 数据进行解析并使用。
电子病历
从电子病历里自动挖掘这些知识就是要自动识别电子病历文本中与患者健康密切相关的各类命名实体以及实体间的关系。近年来,在电子病历文本上应用自然语言处理、信息抽取等技术服务于临床决策支持的研究倍受关。这个过程分为两个不同的阶段: 自然语言处理研究主要关注病历文本的预处理,包括句子边界识 别、词性标注、句法分析等; 信息抽取以自然语言处理研究为基础, 主要关注病历文本中各类表达医疗知识 的命名实体或医疗概念的识别和关系抽取。海量的电子病历数据堪称医疗领域的大数据, 是座知识的宝库, 蕴含了大量的医疗知识和患者的健康信 息。 电子病历数据不应只是封存在病案室里, 应得到有效利用。 如何利用电子病历数据支持生物医学研究和临床研究是医学信息学(Medical Informatics)和转化医学(Translational Medicine)的重要研究内容。
医学信息 学可简单定义为系统地处理有关药品和临床治疗的信息、数据和知识的新兴学科, 其两个重要分支, 临床信 息学(Clinical Informatics)、用户健康信息学(Consumer Health Informatics), 都与电子病历信息抽取密切相关。 杨锦锋 等: 中文电子病历命名实体和实体关系标注体系及语料库构建 3 临床信息学主要研究利用信息技术实现临床决策支持(Clinical Decision Support), 改善临床治疗效果,电子病历是其 重要的基础数 据。
临床信息学的应用领域主要是基于信息技术的循证医学(Evidence-based Medicine)和电子病历系统的智能支持。 病历电子化使得大规模病历的自动分析成为可能, 由于电子病历记 录了患者的疾病和症状、治疗过程和治疗效果, 这些信息是重要的临床证据, 自动抽取这些信息能更加高效 精确地收集证据辅助决策, 促进循证医学这种数据驱动的医疗方法。电子病历已经成为和生物医学文献 同等重要的循证医学实践的源数据。尽管电子病历系统提升了医生的工作效率, 但仍然成为医生工作的负担, 尤其表现在书写病程记录上, 这也影响到了电子病历数据的质量。基于计算机辅助的病历智能生成系统 是电子病历输入的新趋势。为了促进和规范电子病历系统智能支持的实施,中国也于2010 年推出电子病历系统功能应用水平分级评价方法及标准。卓越的临床智 能支持是电子病历系统分级的主要依据, 而临床智能支持的研究与实现必须立足于已有电子病历数据和生物 医学文献的信息抽取和知识挖掘。
随着医学信息学的发展和医疗信息化的普及, 患者历次就诊的电子病历可 聚集起来生成终身个人健康记录(Personal Health Record),一个典型案例。通过分析个人健 康记录, 可以抽取患者个性化的健康知识, 进而为患者个人需求、偏好建立模型并整合到医疗信息系统中, 实 现个性化医疗服务。另外, 基础医学研究和临床治疗之间 的转化医学研究,也离不开对电子病历的分析处理。以命名实体识别和实体关系抽取为主要研究内容的电子病历信息抽取研究引起了 广大研究者的重视, 该研究在英文病历上已经全面展开, 而在中文病历上的研究却刚刚起步。电子病历主要有两类, 即门诊病历和住院病历。
门诊病历通常较短, 包含信息较少, 也缺乏对患者治疗 情况的跟踪, 因而电子病历信息抽取研究大多关注于住院病历, 并且只限于文本数据的挖掘。如不明确说明, 本文所指的电子病历均指住院病历。 电子病历并不是完全结构化的数据, 还包括一些自由文本(半结构或无结 构)数据, 如病程记录和出院小结等。 这种文本信息方便表达概念以及事件等, 是临床治疗过程的主要记录形 式。 结构化的数据处理起来相对容易, 因而这些自由文本是电子病历命名实体识别和实体关系抽取的主要研 究对象。当前大多数命名实体识别和实体关系抽取方法是基于统计机器学习方法, 并且在开放领域已经趋于成熟。
电子病历文本具有半结构化特点和鲜明的子语言特点。由于病历文本的特殊性以及统计机器学习方法的固有局限性, 开放领域的研究成果 很难应用于病历文本之上。 因而, 展开电子病历命名实体识别和实体关系抽取研究首当其冲的就是构建标注 语料库。 如 Roberts 所指出的, 构建标注语料库有三个方面的主要原因:
1) 标注体系清晰地界定了抽取任务 的目标;
2) 标注语料用于评价抽取系统的性能;
3) 标注语料用于开发抽取系统(比如训练机器学习模型)。
因此, 构建高质量的标注语料库对电子病历命名实体识别和实体关系抽取至关重要, 然而中文电子病历信息抽取研究领域还没有一个标注完整、规模较大、开放共享的命名实体和实体关系标注语料库。所以本系统的开发就显得意义重大。
检验检测
糖尿病目前已成为我国的常见病,根据国际糖尿病联盟统计数据,2017年中国是世界第一大糖尿病患者国,全球约有4.25亿成人患糖尿病,其中中国糖尿病患者达1.14亿人,约占全球糖尿病人数的1/4居世界首位。
与庞大的糖尿病人群形成鲜明对比的是,我国糖尿病治疗现状堪忧。糖尿病知晓率低,治疗率低,治疗达标率低,并发症却高。不仅血糖达标率低,体重、血压等达标率也不尽如人意:52.3%患者血糖控制不达标,58.3%患者超重,71.6%患者血压控制不达标。
我国糖尿病流行的4个因素:
- 老龄化
- 城市化
- 超重肥胖患病率增加
- 中国人的遗传易感性:2型
健康管理是指对个人或人群的健康危险因素进行全面监测、分析、评估以及预测和预防的全过程。而我对健康管理的理解,其中的内涵可以用14个字表达,那就是健康的教育、调查、体检、分析、评估、干预、指导。健康体检只是这个全过程中一个重要的不可缺少的环节。健康体检的数据是评价机体状况、疾病预测、生命质量水平的基本条件之一。它只是健康管理中信息采集的重要环节,他与健康管理既有关系又有区别,可称之为“健康管理大家庭”中的一分子。
在医学数据库中的大多数初始记录不包含任何患者标识符信息。为了分析和检测这些患者记录的异常,需要关于该特定患者的先前病历信息进行匹配。没有这些信息,匹配被检测人的任务将非常具有挑战性。该系统的目的是根据提供的特征将患者ID分配给患者记录。
疾病预测
疾病风险预测核心解决的问题是预测个体在未来一段时间内患某种疾病(或发生某种事件)的风险概率。
疾病预测会根据某个人群定义,例如全人群、房颤人群、心梗住院人群等,针对某个预测目标,例如脑卒中、心衰、死亡等,设定特定的时间窗口,包括做出预测的时间点,和将要预测的时间窗,预测目标的发生概率。
- 大数据+AI在大健康领域中最佳实践前瞻 -- 浅谈变分自编码器(Variational Auto Encoder)原理解析与实战
- 大数据+AI在大健康领域中最佳实践前瞻 -- 浅谈使用变分自编码器(VAE) 进行疾病预测
- 大数据+AI在大健康领域中最佳实践前瞻 -- 基于变分自编码器(VAE) 进行疾病预测简单实现
参考文献:
- BP神经网络在疾病预测中的应用
- 面向不均衡医学数据集的疾病预测模型研究
- 人工智能在疾病预测研究中可视化分析
- 基于Doc2Vec和BiLSTM的老年患者疾病预测研究
健康管理
健康医疗保险与人工智能
互联时代,特别是移动互联网日渐普及之后,大数据的搜集变得更为方便和可行,大数据的应用价值受到了各行各业的关注,甚至大数据本身也成了一个专门产业。保险作为基于大数法则运营发展的商业行为,对大数据的利用有着天然的倾向性。
首先,行业竞争倒逼核保和理赔速度的提升,可能带来核保、核赔质量下降的负面影响。从纯理论角度和最理想化的角度来讲,核保和核赔这两个环节是可以为保险公司屏蔽所有逆选择和道德风险的。但付出的代价是用大量的人力对每个投保和理赔申请都进行大量的细致调查。这在保险公司实际运营中是不可能的。特别是在行业竞争越来越激烈的今天,为提升客户体验,保险公司的投保条件愈发宽松,核保核赔速度快,甚至免核保、免体检、快速赔付已经成为保险公司吸引客户的“标配”所在。各家公司千方百计提高服务速度,核保核赔部门往往要承受客户和销售部门的双重压力。在此情况下,虽然保险公司的保费收入有了较大增长,但是承受的风险冲击将明显增大。公司管理层对业绩增长的期待,或多或少冲淡了本该固若金汤的风控意识。
其次,互联网保险的发展,客观上增加了风险控制的难度。如今,网络销售、移动互联网销售日益被保险公司所重视。各种保险销售网站,成为了保险公司新的保费增长点。甚至客户通过手机微信等软件终端,就可以轻松完成投保或理赔过程,在这种情况下,材料真实性验证难度较大,信息不对称性更为突出,机会型欺诈风险增加。异地出险的增加,也对理赔后续工作提出较高要求,容易出现保险服务流程衔接的空白。在传统保险销售过程中,销售人员与客户面对面地沟通,其实也是一种了解客户的过程。但是互联网保险的发展让这个过程消失。核保部门失去了一道天然屏障。这些都是增加了风险控制的难度。
双核系统是一个人工智能驱动的核保核赔系统。旨在辅助保险公司为投保人提供更优质的保险服务。
基于 spark + xgboost or 孤立森林的行业风控(其实异常检测,或者分类的思路都可以在不正常数据的筛检中起到一定的作用,如欺诈检测,风控等)
- 大数据+AI在大健康领域中最佳实践前瞻 -- 基于 pyspark + xgboost 算法的 欺诈检测 DEMO实践
- 大数据+AI在大健康领域中最佳实践前瞻 -- 大数据环境下的异常检测思路 ---- 使用IsolationForest 与Meanshift算法进行异常检测
- 大数据+AI在大健康领域中最佳实践前瞻 -- 基于孤立森林的异常检测 ---- Anomaly: Isolation Forest based Anomaly Detection
参考:
AI + 大数据 助力药物研发
患者招募成为当前临床试验最大难题:
临床试验是指在新药在临床广泛使用前,在国家相关政策和法规允许下进行的帮助医生找出药物最有效的使用方法、适用症状和适用患者,是基础研究成果转化成为新的治疗方法的必由之路。药品临床研究离不开患者(受试者)招募,其也是药品研发的重要环节之一。然而患者招募也是当前临床研究的最大难题。在整个临床试验的过程中,目前所面临的最大的难题是怎样发现 、招募、入组和保留受试者,并保证受试者顺利的完成试验。
参考文献
相关资料