首个中文医疗NLP挑战正式开榜啦!

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 首个中文医疗信息处理挑战榜--CBLUE自4月1日起正式开榜,覆盖八大医疗NLP任务,邀请业界和学术界共同参与。

各位开发者们,有没有遇到过算法才思泉涌但无数据验证的困境?或是论文方向确定但没算力支持检测模型得分的问题?别怕,天池数据集最新推出了打榜的功能,第一弹就聚集了8大优质医疗NLP数据集,让我们一起来看看吧。


中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、夸克、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳)、同济大学等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。


CBLUE自2021年4月1日起上线,排行榜每日8点统一更新排名。每个月定期评出王者、星耀和钻石,以每月最后一天上午8点的排名结果为准(如2021年4月以4月30日上午8点排名结果为准)。其中王者有一队,为第一名;星耀有两队,为第二名和第三名;钻石有三队,为第四名、第五名和第六名。以上排位获得不同礼品。


作为首个中文医疗信息处理挑战,CBLUE覆盖了8大医疗NLP任务,在吸收往届CHIP学术评测的同时也适当增加了业界数据集,业务数据集的特点是数据真实且有噪音,对模型的鲁棒性提出了更高的要求。下面介绍下CBLUE榜单所包含的数据集。


CMeEE

数据集全称是Chinese Medical Entity Extraction,由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联合提供,这是一个标准的NER识别任务,共包括9大类实体:疾病(dis),临床表现(sym),药物(dru),医疗设备(equ),医疗程序(pro),身体(bod),医学检验项目(ite),微生物类(mic),科室(dep)。和传统NER略有不同的是,实体之间存在嵌套关系,嵌套实体是医学文本中常见的现象,因此在模型处理上要比常用的NER模型复杂。


CMeIE

数据集全称是Chinese Medical Information Extraction,与CMeEE的数据提供方一样。这是一个关系抽取任务,共包括53类关系类型(具体类型参加官网介绍),从关系种类数量来看,这是一个比较难的任务。与传统的关系抽取任务有两处不同: 1. 预测阶段并没有事先给出要判定关系类型的实体,输入就是原始的文本,因此选手需要同时处理实体识别和关系抽取,可以看作是一个端对端的关系抽取任务;2. 训练数据中的实体并没有给出具体的下标,如果一个实体在句子中多次出现,这个任务的难点是无法得知关系中的实体具体是指哪一个实体。


此外这个任务的标注数据还提供了一些额外的信息,如“Combined”字段表示两个实体是否出现在同一个句子中,true表示两个实体分布在跨句子中,false表示分布在同一个实体中。跨句子的关系抽取一直是关系抽取中较难解决的问题。总体上这个任务的难度较大,特别希望看到刷榜选手有好的解决思路。


CHIP-CDN

数据集全称是CHIP - Clinical Diagnosis Normalization dataset,是由医渡云(北京)技术有限公司提供的。前缀CHIP[2]表示中国健康信息处理会议,全称是China Health Information Processing Conference,是由CBLUE榜单的发起单位中国中文信息学会(CIPS)医疗健康与生物信息处理专业委员会主办的关于医疗、健康和生物信息处理和数据挖掘等技术的年度会议,是中国健康信息处理领域最重要的学术会议之一。这是一个标准的实体标准化/归一化任务,将给定的实体映射到标准字典(ICD10)上,是一个非常真实的医学临床的任务。


这个任务的难点由于医学表达过于多样,要预测的词汇可能会存在多个归一词条,如数据集例子中给出的“右肺结节转移可能大” -> “肺占位性病变##肺继发恶性肿瘤##转移性肿瘤”,应该需要融入医学知识才能更好的解决这个问题。


CHIP-CTC

数据集全称是CHiP - Clinical Trial Criterion dataset,是由同济大学生命科学与技术学院提供。是一个典型的端文本多分类问题,共有44个类别(具体类别请参照天池官网)。按照笔者的经验,多分类问题最大的难点是要解决样本分布不均匀的问题,刷榜选手需要关注下样本分布比例问题。


CHIP-STS

数据集全称是CHIP - Semantic Textual Similarity dataset,是由平安医疗科技提供。是一个典型的语义相似度判断问题,共包含5大类疾病,0/1两类标签。这个任务应该不太难。


KUAKE-QIC

数据集全称是KUAKE-Query Intention Classification,是由夸克公司提供。也是一个文本分类问题,共有11种分类(具体分类请查看天池官网),这个任务的难点会是输入均来自于真实的用户query,存在一定的噪音。


KUAKE-QTR

数据集全称是KUAKE-Query Title Relevance dataset,也是由夸克公司提供。和CHIP-STS类似,是一个典型的Query-Title match问题,只不过是一个4分类问题(共0~3分 4档)。笔者看了下例子,部分例子还是比较难,如“Q=大腿软组织损伤怎么办,T=腿部软组织损伤怎么办”,这对Q-T的相关性是2分而非3分,因为“大腿”是“腿部”的一个子集,这类任务应该要融入医学知识来能做到更好的性能。


KUAKE-QQR

数据集全称是KUAKE-Query Query Relevance dataset,也是由夸克公司提供。和KUAKE-QTR类似,是一个典型的Query-Query match问题,是一个3分类问题(共0~2分 3档)。任务的难点同KUAKE-QTR,需要融入医学知识和常识来能做到更好的性能,如这个例子“Q1=石榴上火么, Q2=吃番石榴上火吗”,相关度是0分,官方给的解释是“石榴和番石榴”是两种完全不同的水果。互联网语料的丰富度是几个KUAKE前缀任务都要面临的问题。


总体来看,8个任务覆盖了NLP领域大部分类型的问题,包括序列标注、文本分类和句子关系判定,因为这是一个LUE(Language Understanding)榜单,所以没有出现文本生成的任务。任务类型丰富,均贴近实际应用,部分任务(如CMeIE关系抽取)很有难度。欢迎业界和学术界的同行们一起加入到CBLUE benchmark的建设中,一起来推动医疗行业标准数据集的发展。


详情请参见数据集专题页数据集详情页。更多活动信息和动态,请扫描下方二维码加入官方钉群后获得。也可以发送需求邮件到tianchi_opendataset@alibabacloud.com。期待你的加入和建议!

CBLUE.JPG

目录
相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
探索AI技术在文本生成中的应用与挑战
【9月更文挑战第26天】本文深入探讨了AI技术在文本生成领域的应用,并分析了其面临的挑战。通过介绍AI文本生成的基本原理、应用场景以及未来发展趋势,帮助读者全面了解该技术的潜力和局限性。同时,文章还提供了代码示例,展示了如何使用Python和相关库实现简单的文本生成模型。
85 9
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【自然语言处理】GPT-5技术突破预测:引领自然语言处理革新的里程碑
随着科技的飞速发展,人工智能(AI)领域正迎来一场前所未有的革命。近日,OpenAI首席技术官米拉·穆拉蒂在采访中透露,新一代大语言模型GPT-5将在一年半后发布,这一消息无疑在科技界掀起了巨大的波澜。GPT-5的即将登场,预示着AI技术将迈入一个新的时代,我们的工作和日常生活也将随之发生深刻的变化。 GPT-5的发布,将为我们带来前所未有的智能体验。穆拉蒂将其与高中生到博士生的成长相比,可见其在智能水平上的巨大飞跃。GPT-5将具备更高的智能水平,能够处理更为复杂、精细的任务,如高级数据分析、自动化编程、智能内容生成等。这将极大地提高各行各业的工作效率,推动社会生产力的快速发展。
58 4
|
6月前
|
机器学习/深度学习 数据采集 人工智能
构建基于AI的自然语言处理系统
【5月更文挑战第30天】本文探讨了构建基于AI的自然语言处理系统的方法,涉及需求分析、数据准备、模型选择、训练与评估、系统部署和持续优化等关键步骤。强调了数据质量和数量对模型性能的影响,选择了深度学习模型如RNN、LSTM和Transformer,并指出系统优化是持续的过程,旨在提升性能和满足用户需求,为AI领域贡献力量。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【专栏】自然语言处理NLP在文本分析中的应用、面临的挑战以及未来的发展方向。
【4月更文挑战第27天】本文探讨了NLP在文本分析中的应用,如客户服务、市场分析等领域,同时指出NLP面临的挑战,如语言多样性、歧义消解及大规模数据处理。随着技术发展,NLP将深化跨语言分析和个性化理解,并关注隐私保护。未来,可解释的AI和联邦学习等技术将为NLP带来新机遇,开启更智能的信息处理时代。
503 1
|
自然语言处理 搜索推荐 PyTorch
NLP技术如何为搜索引擎赋能
NLP技术如何为搜索引擎赋能
203 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能(AI)与文本数据
人工智能(AI)与文本数据
159 3
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 人工智能 自然语言处理
人工智能生成内容(AIGC)及其在大语言模型中的应用
引言 人工智能生成内容(AIGC)是一种新兴的内容创作方法,它使用人工智能(AI)技术来辅助或替代传统的手工内容创作过程。随着近年来AI技术的飞速发展,AIGC已经在各种领域中得到了广泛的应用,尤其是在大语言模型中,AIGC的应用更是如虎添翼。本文将深入探讨AIGC的技术原理,特别是在大语言模型中的应用,以期提供一个全面而深入的视角来理解这一新兴领域。
726 0
|
人工智能 自然语言处理 达摩院
智能司法领域的 NLP 技术与应用|学习笔记
快速学习智能司法领域的 NLP 技术与应用
573 0
智能司法领域的 NLP 技术与应用|学习笔记
|
机器学习/深度学习 人工智能 自然语言处理
这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!
这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!
202 0
这个开源数据集要在全球扩大中文NLP影响力,你也能来做贡献!
下一篇
无影云桌面