随着医疗行业的飞速发展,科研数据也在数字化时代中扮演重要的角色。天池开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家继续看看天池上用于医疗行业科研方向的数据集。
糖尿病知识图谱数据集 DiaKG
研究方向:信息抽取(NER、关系抽取)、知识图谱、慢病管理
中国是世界上糖尿病(diabetes)患者最多的国家,国务院颁布的《“健康中国2030”规划纲要》中,糖尿病被列为重点预防和监控的慢性病之一,也是影响青少年最常见的慢性疾病之一,全世界日均出现200多名青年糖尿病患者,患者数与日俱增。
本数据集来源于瑞金医院MMC人工智能辅助构建知识图谱大赛(https://tianchi.aliyun.com/competition/entrance/231687/information),数据来源于近10年来的糖尿病专家共识和权威指南文献,标注数据涵盖了22,050个医学实体和6,890对实体关系的糖尿病知识图谱,旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱,是业界首个慢病领域的开放知识图谱。
数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=88836
新冠疫情相似句对判定数据集
研究方向:语义相似度、医学QA、自动问诊/导诊
新冠疫情牵动着每一个人的心,为抗击疫情,疫情知识问答应用得到普遍推广。如何通过自然语言技术将问答进行相似分类是一个有价值的问题。应用场景有识别患者相似问题(有利于理解患者真正诉求,帮助快速匹配准确答案,提升患者获得感)、归纳医生相似答案有助于分析答案规范性,保证疫情期间问诊规范性,避免误诊。
本数据集整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者的提问句对,可助力疫情智能问答应用技术精准度的提升,探索下一代医疗智能问答技术。该数据集来源于天池新冠疫情相似句对判定大赛(https://tianchi.aliyun.com/competition/entrance/231776/introduction)。
数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=76751
中医文献问题生成数据集
研究方向:问题生成(Question Generation),文本生成
疫情催化下,人工智能正在持续助力中医药加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。随着自然语言处理技术的不断发展,问题自动生成(Question Generation)作为一个重要的研究课题已经在很多实际应用场景中落地,通过机器主动提问可以高效构建或者补充知识库,扩大数据集规模。
问题生成技术已经应用到医药领域的自动问诊、辅助诊疗等实际场景中。该数据集来源于天池万创杯中医药大数据竞赛(https://tianchi.aliyun.com/competition/entrance/531826/information),是医疗领域的问题生成的领头数据集。
本数据集的旨在根据篇章及对应的答案自动生成相应的问题,即篇章+答案→问题的流程,是首个中文医疗的问题生成数据集。
数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86895
中药说明书实体识别数据集
研究方向:命名体识别/实体识别/NER、知识图谱、合理用药
该数据集和上述的中医药文献问题生成数据集均来自万创杯中医药大数据竞赛(https://tianchi.aliyun.com/competition/entrance/531826/information),数据来源于中药药品说明书,通过挖掘中药说明书构建中药合理用药的知识图谱,可以为中医规范诊疗奠定良好基础。本数据集抽取中药药品说明书中的关键信息(如药品、药物成分、针对疾病与症状等)可以帮助扩充中医药药品知识库。
数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819
中文医疗信息处理评测基准CBLUE
研究方向:医疗信息抽取、医学术语归一化、医学文本分类、医学QA
由于医疗数据的隐私性,中文领域很少有公开评测基准,这给算法模型的公开评估和泛化能力都带来很大的挑战。CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark)就是在这样的背景下产生的。它是由中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办的医疗自然语言处理评测基准。
评测基准来源于真实医疗场景的任务数据集,包括:医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。CBLUE是国内首个医学自然语言处理挑战榜,目标是一起来推动医疗行业标准化数据集的发展,并进一步助力行业发展。
目前CBLUE已经有300+个机构在榜单提交了评测结果,可谓是高手云集,偷偷告诉大家,榜单每月还会评出前六名,优胜选手可以获得天池定制的神秘礼品,快来挑战吧~
数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414
CBLUE官网请戳:https://tianchi.aliyun.com/cblue
看完两篇医疗行业的数据集介绍,大家是否有收获呢?