天池数据集 | 精品数据集推荐 医疗行业(下)

简介: 随着医疗行业的飞速发展,科研数据也在数字化时代中扮演重要的角色。天池开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家继续看看天池上用于医疗行业科研方向的数据集。

随着医疗行业的飞速发展,科研数据也在数字化时代中扮演重要的角色。天池开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家继续看看天池上用于医疗行业科研方向的数据集。


糖尿病知识图谱数据集 DiaKG

研究方向:信息抽取(NER、关系抽取)、知识图谱、慢病管理


中国是世界上糖尿病(diabetes)患者最多的国家,国务院颁布的《“健康中国2030”规划纲要》中,糖尿病被列为重点预防监控的慢性病之一,也是影响青少年最常见的慢性疾病之一,全世界日均出现200多名青年糖尿病患者,患者数与日俱增。

本数据集来源于瑞金医院MMC人工智能辅助构建知识图谱大赛(https://tianchi.aliyun.com/competition/entrance/231687/information),数据来源于近10年来的糖尿病专家共识和权威指南文献,标注数据涵盖了22,050个医学实体和6,890对实体关系的糖尿病知识图谱,旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱,是业界首个慢病领域的开放知识图谱。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=88836


新冠疫情相似句对判定数据集

研究方向:语义相似度、医学QA、自动问诊/导诊


新冠疫情牵动着每一个人的心,为抗击疫情,疫情知识问答应用得到普遍推广。如何通过自然语言技术将问答进行相似分类是一个有价值的问题。应用场景有识别患者相似问题(有利于理解患者真正诉求,帮助快速匹配准确答案,提升患者获得感)、归纳医生相似答案有助于分析答案规范性,保证疫情期间问诊规范性,避免误诊。

本数据集整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者的提问句对,可助力疫情智能问答应用技术精准度的提升,探索下一代医疗智能问答技术。该数据集来源于天池新冠疫情相似句对判定大赛(https://tianchi.aliyun.com/competition/entrance/231776/introduction)。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=76751


中医文献问题生成数据集

研究方向:问题生成(Question Generation),文本生成


疫情催化下,人工智能正在持续助力中医药加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。随着自然语言处理技术的不断发展,问题自动生成(Question Generation)作为一个重要的研究课题已经在很多实际应用场景中落地,通过机器主动提问可以高效构建或者补充知识库,扩大数据集规模。


问题生成技术已经应用到医药领域的自动问诊、辅助诊疗等实际场景中。该数据集来源于天池万创杯中医药大数据竞赛(https://tianchi.aliyun.com/competition/entrance/531826/information),是医疗领域的问题生成的领头数据集。


本数据集的旨在根据篇章及对应的答案自动生成相应的问题,即篇章+答案→问题的流程,是首个中文医疗的问题生成数据集。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86895


中药说明书实体识别数据集

研究方向:命名体识别/实体识别/NER、知识图谱、合理用药


该数据集和上述的中医药文献问题生成数据集均来自万创杯中医药大数据竞赛(https://tianchi.aliyun.com/competition/entrance/531826/information),数据来源于中药药品说明书,通过挖掘中药说明书构建中药合理用药的知识图谱,可以为中医规范诊疗奠定良好基础。本数据集抽取中药药品说明书中的关键信息(如药品、药物成分、针对疾病与症状等)可以帮助扩充中医药药品知识库。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819


中文医疗信息处理评测基准CBLUE

研究方向:医疗信息抽取、医学术语归一化、医学文本分类、医学QA


由于医疗数据的隐私性,中文领域很少有公开评测基准,这给算法模型的公开评估和泛化能力都带来很大的挑战。CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark)就是在这样的背景下产生的。它是由中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办的医疗自然语言处理评测基准。


评测基准来源于真实医疗场景的任务数据集,包括:医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。CBLUE是国内首个医学自然语言处理挑战榜,目标是一起来推动医疗行业标准化数据集的发展,并进一步助力行业发展。

目前CBLUE已经有300+个机构在榜单提交了评测结果,可谓是高手云集,偷偷告诉大家,榜单每月还会评出前六名,优胜选手可以获得天池定制的神秘礼品,快来挑战吧~


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414


CBLUE官网请戳:https://tianchi.aliyun.com/cblue




看完两篇医疗行业的数据集介绍,大家是否有收获呢?

相关文章
|
5月前
|
人工智能 前端开发 数据安全/隐私保护
淘宝商品详情接口(item.get)实操指南:从认证到响应解析
淘宝item.get接口是获取商品标题、价格、库存等核心数据的官方通道,也是电商系统对接、选品分析的基础工具。本文从账号认证、凭证获取到接口调用、问题排查,拆解全流程关键步骤,附可复用代码与高频问题解决方案,助你快速上手。
|
5月前
|
缓存 监控 安全
淘宝 item_get 接口对接全攻略:从入门到精通
淘宝item_get接口可获取商品详情,广泛用于电商分析、比价与监控。本文详解接口基础、对接流程、签名生成、Python调用示例及错误处理,并分享字段优化、缓存策略等高级技巧,助你高效安全对接。
|
11月前
|
机器学习/深度学习 分布式计算 Kubernetes
30分钟拉起Ray集群并部署Stable Diffusion模型服务
Ray 是一个支持模型训练、测试以及部署的开源平台,由加州大学伯克利分校的 RISELab 开发。它旨在简化大规模机器学习、强化学习和分布式计算任务的开发与部署。阿里云计算巢实现了Ray Cluster的一键部署,帮助用户能够便捷地使用分布式集群训练和测试自己的模型。
|
人工智能 Serverless API
AI时代下的数据信息提取 | 多模态数据信息提取
多模态数据信息提取方案利用先进的大模型技术,支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务,接收用户请求并调用视觉和文本模型进行处理,最终返回结果。部署过程简单易上手,适合新手操作,且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取,满足不同场景需求。此外,该方案支持批处理模式下的离线作业,大幅提高大规模数据处理效率,降低业务落地成本达50%。
|
人工智能 算法 大数据
【天池大赛】历届比赛资料
【天池大赛】历届比赛资料
|
传感器 存储 数据可视化
matlab数据可视化交通流量分析天气条件、共享单车时间序列数据
matlab数据可视化交通流量分析天气条件、共享单车时间序列数据
|
机器学习/深度学习 人工智能 自然语言处理
EasyNLP集成K-Global Pointer算法,支持中文信息抽取
K-Global Pointer的技术解读,以及如何在EasyNLP框架中使⽤K-Global Pointer模型。
EasyNLP集成K-Global Pointer算法,支持中文信息抽取
|
机器学习/深度学习 人工智能 自然语言处理
关于医学多模态大模型,你需要来学习这些最新研究
关于医学多模态大模型,你需要来学习这些最新研究
624 0
|
机器学习/深度学习 传感器 编解码
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(下)
为了在动态环境中安全驾驶,自动驾驶车辆应该能够预测附近交通参与者的未来状态,尤其是周围车辆,类似于人类驾驶员的预测驾驶能力。这就是为什么研究人员致力于轨迹预测领域并提出不同的方法。本文旨在对过去二十年中提出的自动驾驶轨迹预测方法进行全面和比较性的回顾!!!它从问题公式和算法分类开始。然后,详细介绍和分析了基于物理、经典机器学习、深度学习和强化学习的流行方法。最后,论文评估了每种方法的性能,并概述了潜在的研究方向。
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(下)