首个中文医疗NLP挑战正式开榜啦!

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 首个中文医疗信息处理挑战榜--CBLUE自4月1日起正式开榜,覆盖八大医疗NLP任务,邀请业界和学术界共同参与。

各位开发者们,有没有遇到过算法才思泉涌但无数据验证的困境?或是论文方向确定但没算力支持检测模型得分的问题?别怕,天池数据集最新推出了打榜的功能,第一弹就聚集了8大优质医疗NLP数据集,让我们一起来看看吧。


中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、平安医疗科技、夸克、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳)、同济大学等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。


CBLUE自2021年4月1日起上线,排行榜每日8点统一更新排名。每个月定期评出王者、星耀和钻石,以每月最后一天上午8点的排名结果为准(如2021年4月以4月30日上午8点排名结果为准)。其中王者有一队,为第一名;星耀有两队,为第二名和第三名;钻石有三队,为第四名、第五名和第六名。以上排位获得不同礼品。


作为首个中文医疗信息处理挑战,CBLUE覆盖了8大医疗NLP任务,在吸收往届CHIP学术评测的同时也适当增加了业界数据集,业务数据集的特点是数据真实且有噪音,对模型的鲁棒性提出了更高的要求。下面介绍下CBLUE榜单所包含的数据集。


CMeEE

数据集全称是Chinese Medical Entity Extraction,由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联合提供,这是一个标准的NER识别任务,共包括9大类实体:疾病(dis),临床表现(sym),药物(dru),医疗设备(equ),医疗程序(pro),身体(bod),医学检验项目(ite),微生物类(mic),科室(dep)。和传统NER略有不同的是,实体之间存在嵌套关系,嵌套实体是医学文本中常见的现象,因此在模型处理上要比常用的NER模型复杂。


CMeIE

数据集全称是Chinese Medical Information Extraction,与CMeEE的数据提供方一样。这是一个关系抽取任务,共包括53类关系类型(具体类型参加官网介绍),从关系种类数量来看,这是一个比较难的任务。与传统的关系抽取任务有两处不同: 1. 预测阶段并没有事先给出要判定关系类型的实体,输入就是原始的文本,因此选手需要同时处理实体识别和关系抽取,可以看作是一个端对端的关系抽取任务;2. 训练数据中的实体并没有给出具体的下标,如果一个实体在句子中多次出现,这个任务的难点是无法得知关系中的实体具体是指哪一个实体。


此外这个任务的标注数据还提供了一些额外的信息,如“Combined”字段表示两个实体是否出现在同一个句子中,true表示两个实体分布在跨句子中,false表示分布在同一个实体中。跨句子的关系抽取一直是关系抽取中较难解决的问题。总体上这个任务的难度较大,特别希望看到刷榜选手有好的解决思路。


CHIP-CDN

数据集全称是CHIP - Clinical Diagnosis Normalization dataset,是由医渡云(北京)技术有限公司提供的。前缀CHIP[2]表示中国健康信息处理会议,全称是China Health Information Processing Conference,是由CBLUE榜单的发起单位中国中文信息学会(CIPS)医疗健康与生物信息处理专业委员会主办的关于医疗、健康和生物信息处理和数据挖掘等技术的年度会议,是中国健康信息处理领域最重要的学术会议之一。这是一个标准的实体标准化/归一化任务,将给定的实体映射到标准字典(ICD10)上,是一个非常真实的医学临床的任务。


这个任务的难点由于医学表达过于多样,要预测的词汇可能会存在多个归一词条,如数据集例子中给出的“右肺结节转移可能大” -> “肺占位性病变##肺继发恶性肿瘤##转移性肿瘤”,应该需要融入医学知识才能更好的解决这个问题。


CHIP-CTC

数据集全称是CHiP - Clinical Trial Criterion dataset,是由同济大学生命科学与技术学院提供。是一个典型的端文本多分类问题,共有44个类别(具体类别请参照天池官网)。按照笔者的经验,多分类问题最大的难点是要解决样本分布不均匀的问题,刷榜选手需要关注下样本分布比例问题。


CHIP-STS

数据集全称是CHIP - Semantic Textual Similarity dataset,是由平安医疗科技提供。是一个典型的语义相似度判断问题,共包含5大类疾病,0/1两类标签。这个任务应该不太难。


KUAKE-QIC

数据集全称是KUAKE-Query Intention Classification,是由夸克公司提供。也是一个文本分类问题,共有11种分类(具体分类请查看天池官网),这个任务的难点会是输入均来自于真实的用户query,存在一定的噪音。


KUAKE-QTR

数据集全称是KUAKE-Query Title Relevance dataset,也是由夸克公司提供。和CHIP-STS类似,是一个典型的Query-Title match问题,只不过是一个4分类问题(共0~3分 4档)。笔者看了下例子,部分例子还是比较难,如“Q=大腿软组织损伤怎么办,T=腿部软组织损伤怎么办”,这对Q-T的相关性是2分而非3分,因为“大腿”是“腿部”的一个子集,这类任务应该要融入医学知识来能做到更好的性能。


KUAKE-QQR

数据集全称是KUAKE-Query Query Relevance dataset,也是由夸克公司提供。和KUAKE-QTR类似,是一个典型的Query-Query match问题,是一个3分类问题(共0~2分 3档)。任务的难点同KUAKE-QTR,需要融入医学知识和常识来能做到更好的性能,如这个例子“Q1=石榴上火么, Q2=吃番石榴上火吗”,相关度是0分,官方给的解释是“石榴和番石榴”是两种完全不同的水果。互联网语料的丰富度是几个KUAKE前缀任务都要面临的问题。


总体来看,8个任务覆盖了NLP领域大部分类型的问题,包括序列标注、文本分类和句子关系判定,因为这是一个LUE(Language Understanding)榜单,所以没有出现文本生成的任务。任务类型丰富,均贴近实际应用,部分任务(如CMeIE关系抽取)很有难度。欢迎业界和学术界的同行们一起加入到CBLUE benchmark的建设中,一起来推动医疗行业标准数据集的发展。


详情请参见数据集专题页数据集详情页。更多活动信息和动态,请扫描下方二维码加入官方钉群后获得。也可以发送需求邮件到tianchi_opendataset@alibabacloud.com。期待你的加入和建议!

CBLUE.JPG

目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 人工智能
探索AI技术在文本生成中的应用与挑战
【9月更文挑战第26天】本文深入探讨了AI技术在文本生成领域的应用,并分析了其面临的挑战。通过介绍AI文本生成的基本原理、应用场景以及未来发展趋势,帮助读者全面了解该技术的潜力和局限性。同时,文章还提供了代码示例,展示了如何使用Python和相关库实现简单的文本生成模型。
70 9
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【10月更文挑战第3天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将分析NLP的基本原理,介绍AI技术如何推动NLP的发展,并讨论当前的挑战和未来的趋势。通过本文,读者将了解AI技术在NLP中的重要性,以及如何利用这些技术解决实际问题。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在文本生成中的应用
【8月更文挑战第26天】本文将探讨人工智能(AI)在文本生成领域的应用。我们将介绍AI如何通过自然语言处理(NLP)和机器学习(ML)技术,实现自动生成高质量文本内容的能力。文章将详细解释AI文本生成的基本原理,包括预训练模型、神经网络架构以及训练和优化过程。我们还将讨论AI文本生成技术的局限性和未来发展方向,并提供一些实际的应用案例。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在文本生成中的应用与挑战
【9月更文挑战第11天】本文将深入探讨人工智能在文本生成领域的应用及其面临的挑战。我们将通过实际案例分析,了解当前技术如何影响内容创作,并讨论未来可能的发展方向。文章旨在为读者提供一个关于AI文本生成技术的全面视角,包括其优势、局限及潜在影响。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在文本生成中的应用与挑战
【8月更文挑战第31天】本文将探讨AI技术在文本生成领域的应用及其面临的挑战。我们将介绍一些常见的文本生成算法,并通过代码示例展示如何使用这些算法进行文本生成。最后,我们将讨论AI技术在文本生成领域所面临的挑战和未来发展方向。
|
2月前
|
人工智能 自然语言处理 搜索推荐
谷歌 ai人工智能平台叫什么?请记住答案是:Gemini
Gemini 是 Google 开发的一个大型AI语言模型 ,代表着人工智能领域的一项重大进步。它是一个强大的工具,旨在理解和生成人类语言,并具备广泛的功能,可以帮助人们完成各种任务,从创作不同类型的文本到回答复杂的问题,再到翻译语言等等。
|
3月前
|
机器学习/深度学习 数据采集 人工智能
AI(人工智能)大模型:智能新突破与挑战
在人工智能的发展历程中,我们始终追求的是大模型的智能化。这包括对复杂环境的理解力、面对未知情况的泛化能力,以及在各种情况下的适应性。这些因素是衡量一个智能模型优秀与否的关键。而提升大模型在这些方面的表现,不仅能够推动人工智能的发展,更能够拓宽其应用的范围。因此,寻找并采取有效的策略,使大模型走向更加聪明,是我们在未来人工智能发展中必须要面对和解决的重要问题。
63 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 场景】人工智能在自然语言理解方面的挑战和解决方案
【5月更文挑战第3天】【AI 场景】人工智能在自然语言理解方面的挑战和解决方案
|
机器学习/深度学习 人工智能 自然语言处理
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能(AI)与文本数据
人工智能(AI)与文本数据
148 3