天池数据集 | 精品数据集推荐 医疗行业(上)

简介: 随着医疗行业的飞速发展,科研数据在数字化时代中扮演重要的角色。阿里云天池本着合法、安全和隐私保护的原则,和知名机构合作开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家一起看看临床方向的数据集~

随着医疗行业的飞速发展,科研数据在数字化时代中扮演重要的角色。阿里云天池本着合法、安全和隐私保护的原则,和知名机构合作开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家一起看看临床方向的数据集~


萌喵将分上下两篇文章来为大家介绍天池平台开放的医疗健康领域数据集,本篇侧重医学临床方向的数据集,下篇将会介绍医学科研方向的数据集,涵盖了文本、影像等数据。


医疗对话临床发现阴阳性判别数据集

研究方向:对话理解、医学信息抽取、在线问诊

随着新冠疫情的发展,互联网在线医疗已成为一种新型的问诊方法。临床发现(Clinical Finding)是临床医学下,病人状态描述的概念集合,每一个临床发现的概念都具有明确的涵义(比如腹泻,呕吐,高温,物理降温,降温药物治疗)。医学临床报告是病人状态的汇总性的描述,为了尽可能全面和精准的对病人的状态进行客观描述,需要利用严谨的临床发现的概念对病人状态进行表达,其中最基本的状态就是阴性和阳性,也就是病人是否存在或者发生某一种明确的临床发现(Clinical Finding)。


萌喵灵魂拷问:“坐起来就不怎么,躺着就,站着不动也不怎么,走路慢点也还好,快点就”这句话中,大家能分清四个“痛”分别标注阴性还是阳性吗?🤯


目前互联网医疗患者会对自己的症状进行口语化的描述,一般称之为主诉,同时医生也会为其进行针对性的问诊,来进行一些主诉的细化和补充。本数据集针对互联网医疗对话场景,对互联网在线问诊记录中的临床发现的部分进行阴阳性的分类判别,本数据集来源于CHIP2021的医疗对话临床发现阴阳性判别任务(http://cips-chip.org.cn/),共包含10,000段医患对话语料,是目前中文领域最大的医学对话标注数据集。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=108859


临床试验结果预测数据集EBM-Net

研究方向:PICO、临床试验、新药研发、预训练语言模型


临床试验是循证医学的一个重要组成部分,主要目的是验证某种干预手段(手术、化疗、放疗或药物)是否有效。临床试验首先需要召集很多志愿者或患者,然后做对照试验,最后统计得出结果,整个试验过程比较漫长。设计有缺陷或者难以成功的临床试验浪费了宝贵时间,可能会使亟待实施的临床试验因招募不到足够的患者或时间的紧缺而被迫终止。所以,研究者如果在临床试验方案设计阶段就预测出临床试验的结果,并优先进行成功概率较高的临床试验是非常有意义的。


萌喵给大家举个栗子:瑞德西韦曾被科学家们认为是对抗新冠病毒最有希望的药物,这是因为MERS、SARS和新冠病毒同属冠状病毒科且在埃博拉(另一种冠状病毒)感染患者的紧急治疗中也积累了有效的临床结果,这为新冠疫情筛选新药提供了方向。


科学家的这种思考是根据既往的研究经验和医学知识得出的,这使得在临床试验开展前评估临床试验所研究问题的可行性成为可能。EBM-Net (Evidence-Based-Medicine Network)数据集就是在此背景下提出的,可广泛应用于临床试验设计、药品研发等应用方向。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=105784


偷偷告诉大家,使用该数据集的论文(https://aclanthology.org/2020.emnlp-main.114.pdf)不仅发表在了NLP顶会EMNLP2020,还被国际医学信息学协会(IMIA)年报评选为2020年医学自然语言处理的最佳论文了哦~


脊柱疾病核磁影像数据集

研究方向:图像分类、目标检测、自动诊断、CDSS、医学影像自动诊断


医学影像分析是AI技术在医疗行业最早研究的课题之一。脊柱退化性疾病(如腰椎间盘突出等症状)呈现出年轻化的趋势,困扰着老年人群体和办公族(答应萌喵,办公时坐姿一定要端正哦~),正确的预防和干预能够有效防止疾病的恶化。核磁(MRI)作为非侵入式检查手段,被用于普通人群的常规检查,是预防脊柱退化性疾病的可靠检查手段。


该数据集来源于天池“数字人体”AI挑战赛-脊柱疾病智能诊断大赛(https://tianchi.aliyun.com/competition/entrance/231687/information),是业界首个开放的脊柱MRI数据集,目标是促进研究者们关注人工智能算法在脊柱退化性疾病的研究。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=79463



本文着重介绍了天池平台医疗临床方向的数据集,看完是不是觉得很有收获呢,欢迎大家推荐给身边做医学研究的小伙伴们~ 下一篇将会为大家继续详解医疗科研方向的数据集,请大家不要错过噢~

相关文章
|
13天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
42 6
|
传感器 机器学习/深度学习 自动驾驶
无人驾驶中常用的37个数据集以及每个数据集的亮点
我们在写论文的时候,经常会用到数据集.以下是我的一些整理.
|
3月前
|
人工智能 运维 数据安全/隐私保护
【阿里天池赛题】2021年赛道一:医学影像报告异常检测
本文介绍了2021年阿里天池全球人工智能技术创新大赛的医学影像报告异常检测赛题,包括赛题背景、数据说明、评估标准和比赛规则。
81 8
|
3月前
|
机器学习/深度学习 数据采集 存储
【2021 年 MathorCup 高校数学建模挑战赛—赛道A二手车估价问题】2 问题一 数据预处理、特征工程及模型训练Baseline 和数据
参加2021年MathorCup高校数学建模挑战赛赛道A二手车估价问题时进行的特征工程步骤,包括缺失值处理、时间特征提取、特定匿名特征的处理、特征存储以及模型训练过程,并提供了相关代码的下载链接。
60 2
|
3月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】2 特征工程
本文详细介绍了在医学影像报告异常检测任务中进行特征工程的步骤和方法。
33 1
|
4月前
|
机器学习/深度学习 数据采集 人工智能
AI技术实践:利用机器学习算法预测房价
人工智能(Artificial Intelligence, AI)已经深刻地影响了我们的生活,从智能助手到自动驾驶,AI的应用无处不在。然而,AI不仅仅是一个理论概念,它的实际应用和技术实现同样重要。本文将通过详细的技术实践,带领读者从理论走向实践,详细介绍AI项目的实现过程,包括数据准备、模型选择、训练和优化等环节。
466 3
|
4月前
|
人工智能 算法
第四届 Data-Juicer数据挑战赛暨天池 Better Synth 多模态大模型数据合成挑战赛
阿里云、NVIDIA主办,阿里云天池平台、魔搭社区、阿里巴巴通义实验室共同组织的第四届 Data-Juicer 数据挑战赛,暨天池 Better Synth 多模态大模型数据合成挑战赛开赛啦~
|
6月前
|
数据采集 机器学习/深度学习 人工智能
AI特征分析
AI特征分析
|
存储 机器学习/深度学习 人工智能
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[1]、NetCDF4使用教学、Xarray 使用教学,针对气象领域.nc文件读取处理
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[1]、NetCDF4使用教学、Xarray 使用教学,针对气象领域.nc文件读取处理
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[1]、NetCDF4使用教学、Xarray 使用教学,针对气象领域.nc文件读取处理
|
机器学习/深度学习 人工智能 自然语言处理
KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布
KDD 2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布
245 0