天池数据集 | 精品数据集推荐 医疗行业(下)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 随着医疗行业的飞速发展,科研数据也在数字化时代中扮演重要的角色。天池开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家继续看看天池上用于医疗行业科研方向的数据集。

随着医疗行业的飞速发展,科研数据也在数字化时代中扮演重要的角色。天池开放了一批有临床科研价值的数据集,覆盖多个技术领域。今天小萌喵就带大家继续看看天池上用于医疗行业科研方向的数据集。


糖尿病知识图谱数据集 DiaKG

研究方向:信息抽取(NER、关系抽取)、知识图谱、慢病管理


中国是世界上糖尿病(diabetes)患者最多的国家,国务院颁布的《“健康中国2030”规划纲要》中,糖尿病被列为重点预防监控的慢性病之一,也是影响青少年最常见的慢性疾病之一,全世界日均出现200多名青年糖尿病患者,患者数与日俱增。

本数据集来源于瑞金医院MMC人工智能辅助构建知识图谱大赛(https://tianchi.aliyun.com/competition/entrance/231687/information),数据来源于近10年来的糖尿病专家共识和权威指南文献,标注数据涵盖了22,050个医学实体和6,890对实体关系的糖尿病知识图谱,旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱,是业界首个慢病领域的开放知识图谱。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=88836


新冠疫情相似句对判定数据集

研究方向:语义相似度、医学QA、自动问诊/导诊


新冠疫情牵动着每一个人的心,为抗击疫情,疫情知识问答应用得到普遍推广。如何通过自然语言技术将问答进行相似分类是一个有价值的问题。应用场景有识别患者相似问题(有利于理解患者真正诉求,帮助快速匹配准确答案,提升患者获得感)、归纳医生相似答案有助于分析答案规范性,保证疫情期间问诊规范性,避免误诊。

本数据集整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者的提问句对,可助力疫情智能问答应用技术精准度的提升,探索下一代医疗智能问答技术。该数据集来源于天池新冠疫情相似句对判定大赛(https://tianchi.aliyun.com/competition/entrance/231776/introduction)。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=76751


中医文献问题生成数据集

研究方向:问题生成(Question Generation),文本生成


疫情催化下,人工智能正在持续助力中医药加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。随着自然语言处理技术的不断发展,问题自动生成(Question Generation)作为一个重要的研究课题已经在很多实际应用场景中落地,通过机器主动提问可以高效构建或者补充知识库,扩大数据集规模。


问题生成技术已经应用到医药领域的自动问诊、辅助诊疗等实际场景中。该数据集来源于天池万创杯中医药大数据竞赛(https://tianchi.aliyun.com/competition/entrance/531826/information),是医疗领域的问题生成的领头数据集。


本数据集的旨在根据篇章及对应的答案自动生成相应的问题,即篇章+答案→问题的流程,是首个中文医疗的问题生成数据集。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86895


中药说明书实体识别数据集

研究方向:命名体识别/实体识别/NER、知识图谱、合理用药


该数据集和上述的中医药文献问题生成数据集均来自万创杯中医药大数据竞赛(https://tianchi.aliyun.com/competition/entrance/531826/information),数据来源于中药药品说明书,通过挖掘中药说明书构建中药合理用药的知识图谱,可以为中医规范诊疗奠定良好基础。本数据集抽取中药药品说明书中的关键信息(如药品、药物成分、针对疾病与症状等)可以帮助扩充中医药药品知识库。


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819


中文医疗信息处理评测基准CBLUE

研究方向:医疗信息抽取、医学术语归一化、医学文本分类、医学QA


由于医疗数据的隐私性,中文领域很少有公开评测基准,这给算法模型的公开评估和泛化能力都带来很大的挑战。CBLUE(Chinese Biomedical Language Understanding Evaluation Benchmark)就是在这样的背景下产生的。它是由中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办的医疗自然语言处理评测基准。


评测基准来源于真实医疗场景的任务数据集,包括:医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。CBLUE是国内首个医学自然语言处理挑战榜,目标是一起来推动医疗行业标准化数据集的发展,并进一步助力行业发展。

目前CBLUE已经有300+个机构在榜单提交了评测结果,可谓是高手云集,偷偷告诉大家,榜单每月还会评出前六名,优胜选手可以获得天池定制的神秘礼品,快来挑战吧~


image.png


数据集详情请戳:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414


CBLUE官网请戳:https://tianchi.aliyun.com/cblue




看完两篇医疗行业的数据集介绍,大家是否有收获呢?

相关文章
|
8月前
|
人工智能 自然语言处理 搜索推荐
Perplexity AI和秘塔AI相比如何?
【2月更文挑战第16天】Perplexity AI和秘塔AI相比如何?
1166 1
Perplexity AI和秘塔AI相比如何?
|
存储 自然语言处理 API
LlamaIndex使用指南
LlamaIndex是一个方便的工具,它充当自定义数据和大型语言模型(llm)(如GPT-4)之间的桥梁,大型语言模型模型功能强大,能够理解类似人类的文本。LlamaIndex都可以轻松地将数据与这些智能机器进行对话。这种桥梁建设使你的数据更易于访问,为更智能的应用程序和工作流铺平了道路。
2737 0
|
8月前
|
人工智能 自动驾驶 安全
破壁人AI百度:科技公司反内卷的典型样本
破壁人AI百度:科技公司反内卷的典型样本
79 2
|
人工智能 自然语言处理 自动驾驶
破壁人AI百度:科技公司反内卷的典型样本
简介:破壁人AI百度:科技公司反内卷的典型样本 。
145 0
破壁人AI百度:科技公司反内卷的典型样本
|
机器学习/深度学习 自然语言处理 算法
深度学习基础知识:介绍深度学习的发展历程、基本概念和主要应用
深度学习基础知识:介绍深度学习的发展历程、基本概念和主要应用
5136 0
|
Prometheus Kubernetes 安全
5 款漏洞扫描工具:实用、强力、全面(含开源)(一)
5 款漏洞扫描工具:实用、强力、全面(含开源)
3586 1
5 款漏洞扫描工具:实用、强力、全面(含开源)(一)
|
8月前
|
缓存 关系型数据库 MySQL
史上最全MySQL 大表优化方案(长文)
史上最全MySQL 大表优化方案(长文)
1630 0
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
使用PyTorch实现混合专家(MoE)模型
在本文中,我将使用Pytorch来实现一个MoE模型。在具体代码之前,让我们先简单介绍一下混合专家的体系结构。
754 1
|
8月前
|
JavaScript API 开发者
【HarmonyOS 4.0 应用开发实战】ArkTS 快速入门
【HarmonyOS 4.0 应用开发实战】ArkTS 快速入门
831 0
|
8月前
|
人工智能
【AI Make Money】如何用人工智能赚钱
【AI Make Money】如何用人工智能赚钱
1601 0