天池数据集 | 精品数据集推荐 医疗行业(下)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 随着医疗行业的飞速发展,科研数据也在数字化时代中扮演重要的角色。天池开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家继续看看天池上用于医疗行业科研方向的数据集。

随着医疗行业的飞速发展,科研数据也在数字化时代中扮演重要的角色。天池开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家继续看看天池上用于医疗行业科研方向的数据集。


糖尿病知识图谱数据集 DiaKG

研究方向:信息抽取(NER、关系抽取)、知识图谱、慢病管理


中国是世界上糖尿病(diabetes)患者最多的国家,国务院颁布的《“健康中国2030”规划纲要》中,糖尿病被列为重点预防监控的慢性病之一,也是影响青少年最常见的慢性疾病之一,全世界日均出现200多名青年糖尿病患者,患者数与日俱增。

本数据集来源于瑞金医院MMC人工智能辅助构建知识图谱大赛(https://tianchi.aliyun.com/competition/entrance/231687/information),数据来源于近10年来的糖尿病专家共识和权威指南文献,标注数据涵盖了22,050个医学实体和6,890对实体关系的糖尿病知识图谱,旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱,是业界首个慢病领域的开放知识图谱。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=88836


新冠疫情相似句对判定数据集

研究方向:语义相似度、医学QA、自动问诊/导诊


新冠疫情牵动着每一个人的心,为抗击疫情,疫情知识问答应用得到普遍推广。如何通过自然语言技术将问答进行相似分类是一个有价值的问题。应用场景有识别患者相似问题(有利于理解患者真正诉求,帮助快速匹配准确答案,提升患者获得感)、归纳医生相似答案有助于分析答案规范性,保证疫情期间问诊规范性,避免误诊。

本数据集整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者的提问句对,可助力疫情智能问答应用技术精准度的提升,探索下一代医疗智能问答技术。该数据集来源于天池新冠疫情相似句对判定大赛(https://tianchi.aliyun.com/competition/entrance/231776/introduction)。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=76751


中医文献问题生成数据集

研究方向:问题生成(Question Generation),文本生成


疫情催化下,人工智能正在持续助力中医药加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。随着自然语言处理技术的不断发展,问题自动生成(Question Generation)作为一个重要的研究课题已经在很多实际应用场景中落地,通过机器主动提问可以高效构建或者补充知识库,扩大数据集规模。


问题生成技术已经应用到医药领域的自动问诊、辅助诊疗等实际场景中。该数据集来源于天池万创杯中医药大数据竞赛(https://tianchi.aliyun.com/competition/entrance/531826/information),是医疗领域的问题生成的领头数据集。


本数据集的旨在根据篇章及对应的答案自动生成相应的问题,即篇章+答案→问题的流程,是首个中文医疗的问题生成数据集。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86895


中药说明书实体识别数据集

研究方向:命名体识别/实体识别/NER、知识图谱、合理用药


该数据集和上述的中医药文献问题生成数据集均来自万创杯中医药大数据竞赛(https://tianchi.aliyun.com/competition/entrance/531826/information),数据来源于中药药品说明书,通过挖掘中药说明书构建中药合理用药的知识图谱,可以为中医规范诊疗奠定良好基础。本数据集抽取中药药品说明书中的关键信息(如药品、药物成分、针对疾病与症状等)可以帮助扩充中医药药品知识库。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819


中文医疗信息处理评测基准CBLUE

研究方向:医疗信息抽取、医学术语归一化、医学文本分类、医学QA


由于医疗数据的隐私性,中文领域很少有公开评测基准,这给算法模型的公开评估和泛化能力都带来很大的挑战。CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark)就是在这样的背景下产生的。它是由中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办的医疗自然语言处理评测基准。


评测基准来源于真实医疗场景的任务数据集,包括:医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。CBLUE是国内首个医学自然语言处理挑战榜,目标是一起来推动医疗行业标准化数据集的发展,并进一步助力行业发展。

目前CBLUE已经有300+个机构在榜单提交了评测结果,可谓是高手云集,偷偷告诉大家,榜单每月还会评出前六名,优胜选手可以获得天池定制的神秘礼品,快来挑战吧~


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414


CBLUE官网请戳:https://tianchi.aliyun.com/cblue




看完两篇医疗行业的数据集介绍,大家是否有收获呢?

相关文章
|
传感器 机器学习/深度学习 自动驾驶
无人驾驶中常用的37个数据集以及每个数据集的亮点
我们在写论文的时候,经常会用到数据集.以下是我的一些整理.
|
3月前
|
机器学习/深度学习 数据采集 存储
【2021 年 MathorCup 高校数学建模挑战赛—赛道A二手车估价问题】2 问题一 数据预处理、特征工程及模型训练Baseline 和数据
参加2021年MathorCup高校数学建模挑战赛赛道A二手车估价问题时进行的特征工程步骤,包括缺失值处理、时间特征提取、特定匿名特征的处理、特征存储以及模型训练过程,并提供了相关代码的下载链接。
60 2
|
4月前
|
机器学习/深度学习 数据采集 人工智能
AI技术实践:利用机器学习算法预测房价
人工智能(Artificial Intelligence, AI)已经深刻地影响了我们的生活,从智能助手到自动驾驶,AI的应用无处不在。然而,AI不仅仅是一个理论概念,它的实际应用和技术实现同样重要。本文将通过详细的技术实践,带领读者从理论走向实践,详细介绍AI项目的实现过程,包括数据准备、模型选择、训练和优化等环节。
472 3
|
3月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】2 特征工程
本文详细介绍了在医学影像报告异常检测任务中进行特征工程的步骤和方法。
33 1
|
3月前
|
机器学习/深度学习 数据采集 人工智能
揭秘AI的魔法:如何用机器学习预测股市走势
在金融领域,股市走势的预测一直是一个复杂而充满挑战的问题。随着人工智能技术的发展,机器学习已经成为解决这一问题的有力工具。本文将介绍如何使用机器学习技术来预测股市走势,包括数据准备、模型选择和结果分析等步骤。我们将通过具体实例和数据分析,展示机器学习在股市预测中的应用,并探讨其优势和局限性。最后,我们将提出一个开放性问题,引导读者进一步思考和探索。
|
机器学习/深度学习 自然语言处理 机器人
人工智能技术的主要类别
人工智能技术的主要类别
180 0
|
机器学习/深度学习 人工智能 大数据
明早9点大讲堂 | 时空大数据和深度学习在交通事故预测上的应用
本次公开课将讨论利用深度学习模型和时空大数据预测交通事故的最新工作。同时还将介绍其他时空数据挖掘和城市计算的研究问题及相关进展。
629 0
|
机器学习/深度学习 人工智能 大数据
人工智能、大数据、数据挖掘、机器学习-数据集来源(下)
人工智能、大数据、数据挖掘、机器学习-数据集来源(下)
218 0
|
机器学习/深度学习 数据采集 存储
人工智能、大数据、数据挖掘、机器学习-数据集来源(上)
人工智能、大数据、数据挖掘、机器学习-数据集来源(上)
224 0