一、医疗健康领域的知识需求
数据标准化
–制定标准:提供医疗卫生的国家标准、行业标准以及区域标准规范
–标准化能力:基于NLP人工智能技术,将不同机构、不同数据标准数据,按照相同统一数据标准进行标准化,为数据统计分析提效
–数据治理:在统一数据标准下,数据质量的量化和提升成为可能
数据结构化
–实体识别:识别文本中的医学实体和属性,如:入院记录、出院记录中的阳性/阴性症状、体征、疾病、检查、治疗方案等实体;
–信息抽取:基于真实世界数据的NLP人工智能技术,对主诉、现病史、既往史等一诉五史的文本内容进行核心要素抽取,实现医疗文本数据的可计算
知识图谱
–疾病知识图谱:提供疾病的诊断、分型、临床症状、合并症、检查检验指标、用药治疗、手术治疗等各类疾病相关知识的查询与展示
–药品知识图谱:提供药品的名称、成分、剂型、规格、用法用量、适应症、禁忌症、特殊人群、不良反应、药理作用等药品相关知识的查询与展示
知识库
–覆盖药品、疾病、诊疗、检查检验等多种知识库、百万量级行业知识实体与关系
二、医疗知识工程
知识生产
知识生产是指从不同来源的、不同数据进行知识提取,形成知识的过程,而ToB、ToG行业是一个下游业务非常细碎的场景,不同的场景需要的知识内容、维度、颗粒度都可能不同,难以控制和预估。过去在这些碎片化的知识生产需求中,每一个任务都需要定制大量的数据标注和模型训练,标注代价大、开发周期长、交付成本比较高。
通过对大量行业语料以及行业标准术语集的构建,利用概念上下位关系、属性关系、标签等启发式规则,可以对原始语料进行数据增强,采用基于prompt learning+不同维度(实体抽取、关系抽取、文本一致性等)、不同粒度(子词抽取、实体抽取、mask word等)的语言模型预训练任务,相比于传统的prompt信息抽取方案,基于知识工程的术语语义上下位关系,除了可以基于schema设计prompt范式,还可以基于实体的父节点、属性节点以及各种组合设计prompt范式,信息抽取类型更丰富,可以支持更多的知识抽取场景,帮助用户快速建模、快速验证知识生产效果,有助于快速获客和建立服务。
知识融合
依托于知识增强的预训练语言模型的强大表达能力,我们将知识的融合抽象为:
· 术语语义抽取(Term Extractor):识别原始数据的原子语义成分以及语义词内容,实现对于原始数据语义级别的理解。
· 术语语义匹配(Term Matcher):识别不同语义成分之间的相关性如同义词、上位词、下位词,实现知识的标准化,结构化。
· 概念实体对齐(Entity Alignment):基于可配置的匹配规则,依据在原始知识图谱中实体的属性、属性值、上下位实体,实现对不同知识来源的实体进行匹配对齐。
知识融合是知识构建过程中不可缺少的一环,良好的融合策略能够避免信息孤岛,使得知识连通更加稠密,提升知识的应用价值。
知识计算
· 挖掘计算:知识的挖掘计算可以基于原始知识的上下位、属性结构,大大丰富对海量数据统计分析的维度和颗粒度,能够支持更加丰富的数据报表场景,方便客户从不同维度感知数据的价值。
三、知识工程技术图谱建设
知识本体构建
知识本体构建,就是设计知识图谱的三元组结构,是整个知识图谱构建的基础,是后续的知识抽取、知识存储、知识推理等环节的铺垫。按照本体构建顺序,可将知识图谱构建过程分为“自上而下”和“自下而上”两种:
(1)自上而下:基于人为定义知识图谱的本体结构,进行知识的抽取,对齐、推理等构建操作。这种构建方式结构清晰,方便设计,但由于需人力干预,有一定人力成本投入,多用于垂直领域;
(2)自下而上:通过算法手段,由知识抽取得到的三元组逐步扩展构建本体结构。这种构建方式人工干预较少,但算法设计较复杂,多用于百科、知网等已经有一定关系结构的数据。
医疗行业预训练语言模型
随着 BERT 等预训练语言模型的出现,自然语言处理领域正式进入“预训练+微调”模式的新阶段。各大公司在通用文本领域提供了诸多可用的开源中文文本预训练模型,但是因为领域不同、训练数据之间的差异,导致这些预训练模型难以直接应用在特定行业领域。特定行业的专业知识性给通用预训练模型的领域自适应制造了障碍。
基于聚类增强的远程实体关系抽取
很多专业行业知识分布广泛,但是标注数据较少。为了在标注数据匮乏的情况下,提高实体关系识别的准确率。知识图谱构建过程中,我们提出了基于聚类增强的远程监督方法:
· 将获取的文本(互联网百科知识、专业书籍、科研文献)与专家预标注的小规模知识库对齐,生成远程监督数据集;
· 在该远程监督数据集上预训练基于选择性注意力机制的深度学习关系抽取模型;
· 将数据集中同一关系类别的样本合并,在每一个关系类别的样本上通过密度聚类算法获得若干簇;
· 将簇作为包级别关系抽取模型的基本训练单元,训练深度学习关系抽取模型;
· 利用更新后的深度神经网络得到样本新的特征向量,并跳转到步骤4),对步骤4)~6)进行迭代。
本方法基于聚类增强可以有效降低噪声数据的影响,并减少对实体关系标注数量的需求,可加速图谱的构建。
层次化的实体关系联合抽取
阿里云医学知识图谱示例
四、医学知识使用场景及案例
知识工程获奖 –中国健康信息处理大会比赛第一名
中国健康信息处理大会(CHIP)是中国中文信息处理学会(CIPS)医疗健康与生物信息处理专业委员会开展的,是中文医疗健康信息处理领域最有影响力的会议之一。
会议每年会开设公开的算法评测任务。今年会议发布了5个基础医疗算法任务,其中“任务五-临床诊断编码”是对患者疾病诊断和治疗信息的加工过程。临床诊断编码在评估医疗质量与医疗效率、设计临床路径方案、重点学科评价、医院评审、疾病诊断分级、医疗支付、合理用药监测等方面的应用越来越广泛,具有非常重要的现实意义与应用价值。
由于该任务属于一种多标签分类任务,需要联合多种输入信息并充分挖掘其背后隐藏的含义,具有非常大的挑战性,特别是在需要精细化区分的慢病诊断编码、肿瘤与癌症诊断编码等领域。