阿里云医学知识工程Metamed KE - 知识驱动智能应用

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 本文从医疗健康领域的知识需求、医疗知识工程、知识工程技术图谱建设、医学知识使用场景及案例四个维度来介绍阿里云医学知识工程Metamed KE 。

一、医疗健康领域的知识需求

医疗产业数字化阶段经过信息化、互联互通等历史阶段,当前已发展到数智化阶段,以大数据分析和人工智能AI服务于临床管理和科学决策的场景纷纷落地。医疗健康领域的数据发生并存储于多机构,行业相关信息化厂商众多,数据在分析、使用治理的过程中,存在结构化、标准化等刚性诉求,而知识图谱及可靠的知识库,是支持医疗数据高效治理和医疗业务决策的重要工具。

数据标准化

制定标准:提供医疗卫生的国家标准、行业标准以及区域标准规范

标准化能力:基于NLP人工智能技术,将不同机构、不同数据标准数据,按照相同统一数据标准进行标准化,为数据统计分析提效

数据治理:在统一数据标准下,数据质量的量化和提升成为可能

数据结构化

实体识别:识别文本中的医学实体和属性,如:入院记录、出院记录中的阳性/阴性症状、体征、疾病、检查、治疗方案等实体;

信息抽取:基于真实世界数据的NLP人工智能技术,对主诉、现病史、既往史等一诉五史的文本内容进行核心要素抽取,实现医疗文本数据的可计算

知识图谱

疾病知识图谱:提供疾病的诊断、分型、临床症状、合并症、检查检验指标、用药治疗、手术治疗等各类疾病相关知识的查询与展示

药品知识图谱:提供药品的名称、成分、剂型、规格、用法用量、适应症、禁忌症、特殊人群、不良反应、药理作用等药品相关知识的查询与展示

知识库

覆盖药品、疾病、诊疗、检查检验等多种知识库、百万量级行业知识实体与关系

二、医疗知识工程

知识工程是运用自然语言处理以及工程化手段,高效率、大容量、可循证的获取行业领域知识的技术,并基于平台化工具进行知识生产、知识管理、以及知识应用。依托能够揭示医学本体复杂概念关系的关联组体系,从术语的语义特征出发构建术语语义网络,基于网络的表达能力和推理能力,实现医学诊疗逻辑的快速生产和本地化适配。知识工程链接数据和知识,是人工智能的重要支撑。

替换 图1.jpg

知识生产

知识生产是指从不同来源的、不同数据进行知识提取,形成知识的过程,而ToBToG行业是一个下游业务非常细碎的场景,不同的场景需要的知识内容、维度、颗粒度都可能不同,难以控制和预估。过去在这些碎片化的知识生产需求中,每一个任务都需要定制大量的数据标注和模型训练,标注代价大、开发周期长、交付成本比较高

通过对大量行业语料以及行业标准术语集的构建,利用概念上下位关系、属性关系、标签等启发式规则,可以对原始语料进行数据增强,采用基于prompt learning+不同维度(实体抽取、关系抽取、文本一致性等)、不同粒度(子词抽取、实体抽取、mask word等)的语言模型预训练任务,相比于传统的prompt信息抽取方案,基于知识工程的术语语义上下位关系,除了可以基于schema设计prompt范式,还可以基于实体的父节点、属性节点以及各种组合设计prompt范式,信息抽取类型更丰富,可以支持更多的知识抽取场景,帮助用户快速建模、快速验证知识生产效果,有助于快速获客和建立服务。

知识融合

知识融合是指将不同知识进行对齐、合并的操作,在ToBToG的场景下由于业务需求本身的多变性以及行业标准规范的快速迭代,原始知识是离散分布在整条行业链路的各个位置,知识融合需要包含对知识图谱、行业标准术语集以及客户原始数据等多种来源的知识和数据进行互联互通的融合。在数据智能化应用的大背景下,需要我们对于知识的加工能力深入到客户原始数据语义级层面,能够灵活地根据业务的需求从不同粒度、不同维度进行知识的融合对齐。

依托于知识增强的预训练语言模型的强大表达能力,我们将知识的融合抽象为:

· 术语语义抽取(Term Extractor):识别原始数据的原子语义成分以及语义词内容,实现对于原始数据语义级别的理解。

· 术语语义匹配(Term Matcher):识别不同语义成分之间的相关性如同义词、上位词、下位词,实现知识的标准化,结构化。

· 概念实体对齐(Entity Alignment):基于可配置的匹配规则,依据在原始知识图谱中实体的属性、属性值、上下位实体,实现对不同知识来源的实体进行匹配对齐。

知识融合是知识构建过程中不可缺少的一环,良好的融合策略能够避免信息孤岛,使得知识连通更加稠密,提升知识的应用价值。

知识计算

知识计算是应用知识图谱的主要输出方式,通过庞大的知识本身直接赋能传统行业业务形态。在传统的数据智能化业务中,海量的数据伴生了如非标准数据的标准化、数据的语义智能化搜索、可定制的数据智能报表分析等大量新型的数据使用需求:

· 知识推理:知识推理是指通过对原始知识的建模,对原有知识图谱进行补全和错误发现。通过启发式规则以及图嵌入算法(GCNTransETransR等),对原始知识图谱进行表示学习,依据行业的业务特征执行知识推理过程,补全知识图谱中缺失的上下位、属性关系,以及识别图谱中的错误。

· 知识链接:在实际场景中,客户的数据和输入往往是非规范和开放的,因此需要知识链接的算法识别业务场景关联的实际知识,实现知识和数据的串通,解决数据的语义多样性,数据的语义消歧,帮助客户能够自动化的精准理解数据,实现非标数据到标准化数据的映射,精确的数据搜索等业务痛点。

· 挖掘计算:知识的挖掘计算可以基于原始知识的上下位、属性结构,大大丰富对海量数据统计分析的维度和颗粒度,能够支持更加丰富的数据报表场景,方便客户从不同维度感知数据的价值。

替换图2.jpg

阿里云依托医疗行业领域的经验积累和丰富的权威知识来源,运用人工智能技术进行知识生产、知识融合、知识管理,打造具备海量行业知识、可靠可解释的医学知识工程。阿里云医学知识工程具有权威性及多样性的知识来源:融合卫健委、医保局以及20+省份发布的诊断、手术、药品、收费项目术语编码目录;深度与广度兼备的语义网络,基于关联组体系的,术语多父节点语义级链接与属性;触达众多学科领域的医学实体,梳理来自政策文件、国家标准、技术文档、诊疗规范、专家经验、临床指南、公开目录、医学教材、国际标准等多个来源的权威医学知识,并进行结构化、标准化医学标注;灵活敏捷的知识输出,内嵌知识图谱推理引擎,具备API接口提供基于知识的人工智能算法模型,可以进行术语多维度查找、术语识别、语义轴心词解析。

三、知识工程技术图谱建设

知识图谱是一种结构化的语义知识库,以图结构来存储数据及其关联关系,图谱的基本组成单位是<实体,关系,实体>三元组,和实体及其相关属性的属性值对,实体之间通过关系相互联结,构成网状的知识结构。利用知识抽取技术对非结构化或半结构化数据进行信息抽取,挖掘出数据中的实体、关系以及属性后,需要完成实体对齐、消除歧义操作,之后进行知识本体结构的构建,构建好的知识本体还需要人工审核,进行质量校验评估,最终输出至上层应用所使用。

知识本体构建

知识本体构建,就是设计知识图谱的三元组结构,是整个知识图谱构建的基础,是后续的知识抽取、知识存储、知识推理等环节的铺垫。按照本体构建顺序,可将知识图谱构建过程分为自上而下自下而上两种:

1)自上而下:基于人为定义知识图谱的本体结构,进行知识的抽取,对齐、推理等构建操作。这种构建方式结构清晰,方便设计,但由于需人力干预,有一定人力成本投入,多用于垂直领域;

2)自下而上:通过算法手段,由知识抽取得到的三元组逐步扩展构建本体结构。这种构建方式人工干预较少,但算法设计较复杂,多用于百科、知网等已经有一定关系结构的数据。

替换图3.jpg

本体结构示例

医疗行业预训练语言模型

随着 BERT 等预训练语言模型的出现,自然语言处理领域正式进入预训练+微调模式的新阶段。各大公司在通用文本领域提供了诸多可用的开源中文文本预训练模型,但是因为领域不同、训练数据之间的差异,导致这些预训练模型难以直接应用在特定行业领域。特定行业的专业知识性给通用预训练模型的领域自适应制造了障碍。

大量相关行业知识广泛分布于互联网网页、专业书籍和相关专业研究文献中。从上述数据源抓取到的海量文本数据,经过梳理和清洗后,沉淀行业领域专业语料库。基于该大规模语料,挖掘出行业的常见概念、实体和有意义短语,结合全词掩码、短语掩码和动态掩码等技术,以自监督形式训练得到医疗行业属性的预训练语言模型MetaMed BERT

基于聚类增强的远程实体关系抽取

很多专业行业知识分布广泛,但是标注数据较少。为了在标注数据匮乏的情况下,提高实体关系识别的准确率。知识图谱构建过程中,我们提出了基于聚类增强的远程监督方法:

· 将获取的文本(互联网百科知识、专业书籍、科研文献)与专家预标注的小规模知识库对齐,生成远程监督数据集;

· 基于行业预训练语言模型,为每个样本构建特征向量;

· 在该远程监督数据集上预训练基于选择性注意力机制的深度学习关系抽取模型;

· 将数据集中同一关系类别的样本合并,在每一个关系类别的样本上通过密度聚类算法获得若干簇;

· 将簇作为包级别关系抽取模型的基本训练单元,训练深度学习关系抽取模型;

· 利用更新后的深度神经网络得到样本新的特征向量,并跳转到步骤4),对步骤4)6)进行迭代。

本方法基于聚类增强可以有效降低噪声数据的影响,并减少对实体关系标注数量的需求,可加速图谱的构建。

层次化的实体关系联合抽取

通常情况下,在构建专业领域知识图谱时,一般采用两阶段的信息抽取方法:先利用实体识别模型领域实体,然后将领域实体作为关系识别模型的输入,经由关系识别模型检测出实体之间的关系。在这种方式下,实体抽取可以看作关系抽取的一个必要的预处理任务,利用条件随机场等概率图模型或者深度学习模型抽取命名实体。

替换图4.jpg

层次化的实体和关系联合抽取方案示意图

在医疗等特定行业,实体和实体间关系本身具有着较强的相关关系:实体信息有助于实体关系的检测,同时实体关系也可以头尾实体的识别提供先验信息。因此,在行业图谱的构建中,我们提出了实用层次化的实体和关系抽取方案:对采集的数据做相应实体和实体关系标注后,训练模型的浅层部分去学习实体关系捕捉能力,同时模型的深层部分结合当前整合到的序列信息与浅层捕捉到的实体关系信息融合,给出最终的实体识别和关系识别结果。

相比于pipeline的实体关系抽取算法,层次化的实体关系联合抽取能够将实体识别和关系抽取任务联合建模,利用关系抽取的特征对实体识别任务进行辅助,使两个任务不再被简单地分割开,并且减少由于pipeline所带来的级联错误。

阿里云医学知识图谱示例

替换图5.jpg替换图6.jpg

四、医学知识使用场景及案例

阿里云医学知识工程人工智能算法:医学术语标准化

医学术语不仅体量大,且对于同一种疾病、药物、辅助检查、检验、症状、体征可以有多达上百种不同的表达方式。使用人工智能将这些多样化的表达方式准确又智能地转化为标准术语,称为医学术语标准化。传统基于机器学习的模型可解释性不足,需要大量的训练数据,难以快速适应不断变化的标准术语体系。基于知识图谱概念本体的关联网络,通过大量行业术语表的引入,丰富现有概念术语集、知识图谱文本表述形式,训练模型真正理解术语本身语义含义,具备可通用、可解释、弱监督、适用于多种标准术语体系等特性。

替换图7.jpg

知识工程获奖 中国健康信息处理大会比赛第一名

中国健康信息处理大会(CHIP)是中国中文信息处理学会(CIPS)医疗健康与生物信息处理专业委员会开展的,是中文医疗健康信息处理领域最有影响力的会议之一。

会议每年会开设公开的算法评测任务。今年会议发布了5个基础医疗算法任务,其中任务五-临床诊断编码是对患者疾病诊断和治疗信息的加工过程。临床诊断编码在评估医疗质量与医疗效率、设计临床路径方案、重点学科评价、医院评审、疾病诊断分级、医疗支付、合理用药监测等方面的应用越来越广泛,具有非常重要的现实意义与应用价值。

由于该任务属于一种多标签分类任务,需要联合多种输入信息并充分挖掘其背后隐藏的含义,具有非常大的挑战性,特别是在需要精细化区分的慢病诊断编码、肿瘤与癌症诊断编码等领域。

阿里云参赛的编码方案基于基础数字医疗产品HData与医学知识工程,研发团队将医疗知识与预训练模型进行融合,并提出一种Value-Level Pooling的结构,进一步结合知识工程对结果进行后处理来优化效果。由于编码效果出色,阿里云团队最终荣获第一名。

12.1 临床诊断编码任务第一名.png

相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 现况分析】AIGC 应用领域分析
【1月更文挑战第27天】【AI 现况分析】AIGC 应用领域分析
|
机器学习/深度学习 人工智能 自然语言处理
多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势
多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势
307 0
|
1月前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
195 64
|
4月前
|
机器学习/深度学习 算法
【类脑智能】类脑智能研究中的专业术语
本文列出并解释了类脑智能研究中的一系列专业术语,涵盖了从复杂网络、连接体、分散系统到网络通信模型等多个方面,为理解该领域的理论和技术概念提供了基础。
70 4
【类脑智能】类脑智能研究中的专业术语
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 监控 安全
AIGC:驱动智能图像应用的革命性技术
AIGC:驱动智能图像应用的革命性技术
324 1
|
机器学习/深度学习 人工智能 图形学
深度强化训练汽车学会踢球,AI驱动「飞车」自成一派,运球射门不在话下
还在和人踢球?来试试汽车! 功能丰富,只为提供最真实的操作体验 免费版本即将发布
252 0
深度强化训练汽车学会踢球,AI驱动「飞车」自成一派,运球射门不在话下
|
机器学习/深度学习 监控 算法
工业智能安防目标检测算法研究现状
随着智慧城市建设的不断推进和人工智能技术的快速发展,智能安防和人员智能化管理开始受到社会广泛关注。人体行为识别是通过视频监控挖掘人员信息的核心环节,对于智慧城市的建设具有重要意义。但是,面对复杂的监控场景和海量的视频数据,传统的人体行为识别方法,已经无法满足日益增长的工业应用需求。
330 0
|
机器学习/深度学习 人工智能 算法
体素科技:2018年,算法驱动下的医学影像分析进展
自 2012 年 AlexNet 挑战 ImageNet 获得巨大成功以来,用于图像领域的深度学习算法以令人目不暇接的速度飞速演化着。
286 0
体素科技:2018年,算法驱动下的医学影像分析进展
|
编解码 算法 数据可视化
工业视觉智能实战经验之IVI算法框架2.0
工业视觉智能团队在交付了多个工业视觉智能质检项目后,发现了工业视觉智能的共性问题和解法,打造了工业视觉智能平台,通过平台的方式积累和提升工业视觉的通用能力。在平台建设上最核心的能力是算法能力。算法能力包括不断增强的单点算法能力和不断扩充的新算法能力。那么如何将算法能力输出到平台呢?答案是算法框架。算法框架是算法能力的载体,通过它能够将能力输出到平台。
工业视觉智能实战经验之IVI算法框架2.0