【阿里天池赛题】2021年赛道一:医学影像报告异常检测

简介: 本文介绍了2021年阿里天池全球人工智能技术创新大赛的医学影像报告异常检测赛题,包括赛题背景、数据说明、评估标准和比赛规则。

天池-全球人工智能技术创新大赛

赛题背景

影像科医生在工作时会观察医学影像(如CT、核磁共振影像),并对其作出描述,这些描述中包含了大量医学信息,对医疗AI具有重要意义。本任务需要参赛队伍根据医生对CT的影像描述文本数据,判断身体若干目标区域是否有异常以及异常的类型。初赛阶段仅需判断各区域是否有异常,复赛阶段除了判断有异常的区域外,还需判断异常的类型。判断的结果按照指定评价指标进行评测和排名,得分最优者获胜。

赛题描述及数据说明

sample数据

医生对若干CT的影像描述的明文数据,及描述中有异常区域与异常类型的label。样本数量为10份,以便使参赛队伍对比赛数据有直观的了解(Sample数据只是为了增进参赛选手对医疗影像描述的直观了解,实际训练与测试数据不一定与Sample数据具有相同特征或分布)。

每份样本占一行,使用分隔符“|,|”分割为3列,为不带表头的CSV数据格式。

1.png

需要预测的人体区域有17个,复赛中需要判断的异常类型有12种。由于数据安全需要,不会告知具体区域与类型的名称,只会以ID表示,区域ID为0到16,类型ID为0到11。每个影像描述中可能有零个、一个或多个区域存在异常;若此描述有异常区域,则可能包含一个或多个异常类型。

Training数据

脱敏后的影像描述与对应label。影像描述以字为单位脱敏,使用空格分割。初赛只进行各区域有无异常的判断,label只有异常区域ID。复赛除了判断各区域有无异常,还需要判断各区域异常的类型,因此label包含异常区域ID与异常类型ID。初赛Training集规模为10000例样本,复赛Training集规模为20000例样本。Training数据用于参赛选手的模型训练与预估。

  • 初赛Training数据格式(不同列使用分隔符“|,|”分割):
列名 类型 示例
report_ID int 1
description 脱敏后的影像描述,以字为单位使用空格分割 101 47 12 66 74 90 0 411 234 79 175
label 由多个异常区域ID组成,以空格分隔。若此描述中无异常区域,则为空 3 4
  • 复赛Training数据格式(不同列使用分隔符“|,|”分割):
列名 类型 示例
report_ID int 1
description 脱敏后的影像描述,以字为单位使用空格分割 101 47 12 66 74 90 0 411 234 79 175
label string,由两部分组成。第一部分为若干异常区域ID,用空格分割。第二部分为若干异常类型ID,用空格分割。两部分用逗号“,”分割。若定义中所有区域均无异常,则两部分均为空,此项为“,”。 3 4,0 2

Test数据

脱敏后的影像描述,脱敏方法和Training相同。Test数据用于参赛选手的模型评估和排名。初赛Test集分为AB榜,规模均为3000。复赛Test集规模为5000。

Test数据格式(不同列使用分隔符“|,|”分割):

列名 类型 示例
report_ID int 1
description 脱敏后的影像描述,以字为单位使用空格分割 101 47 12 66 74 90 0 411 234 79 175

提交说明

对于Test数据report_ID,description,选手应提交report_ID,prediction,其中prediction是预测结果。初赛中prediction是17维向量,值在0到1之间,表示各区域有异常的概率,使用空格分割。复赛中prediction是29维向量,值在0到1之间,前17个值表示17个区域有异常的概率,后12个值表示此描述包含各异常类型的概率。

2.png

评估标准

在Test数据上将对选手提交结果使用ROC曲线的AUC(Area Under Curve)作为评估标准。

3.png


下面以复赛分数为例,举例说明分数计算方法。为了便于说明,这里假设区域有3个而不是17个,异常类型有2个而不是12个。设真实值和选手提交的预测值分别如下:

| 真实值Ground Truth | 预测值Prediction |
| --- | --- |
| 0 1 0 1 0 | 0 0.6 0.7 0.5 0 |
| 0 0 1 1 0 | 0 0.6 0.8 0.1 0.2 |

则第一部分分数为对以下数据计算AUC:

4.png

比赛规则

  1. 本项比赛全程不允许使用外部数据集。

  2. 允许使用预训练模型,如网络模型与embedding等。

  3. 复赛阶段可以使用初赛阶段的数据集。

目录
相关文章
|
机器学习/深度学习 传感器 数据采集
阿里云天池大赛赛题解析——机器学习篇-赛题一(1)
阿里云是国内知名的云计算、大数据、人工智能技术型公司,是阿里巴巴集团最重要的技术部门。阿里云天池是阿里云面向开发者和教育行业的资源输出部门,天池大赛是国内最大规模的人工智能算法赛事,致力于汇聚全球AI精英为企业解决真实问题。自2014年至今已举办数十次行业顶级算法赛事,全球参赛开发者超过30万人。然而对于更广大的普通开发者和大学生群体来说,高规格的算法大赛仍然具有很高的门槛。本书就是针对受众最广泛的新手人群而编写的,精选阿里巴巴最典型的人工智能算法应用案例,邀请天池大赛最顶级的获奖选手联合编撰,公开那些鲜为人知的技术秘籍,力图使每一个涉足数据智能算法技术的开发者从中获益......
阿里云天池大赛赛题解析——机器学习篇-赛题一(1)
|
4月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
103 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
4月前
|
运维 大数据
【2021年中国高校大数据挑战赛】异常检测比赛知识体系-思维导图
一张思维导图:2021年中国高校大数据挑战赛异常检测比赛知识体系。
59 0
|
4月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
81 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
4月前
|
人工智能 运维 数据挖掘
【阿里天池-医学影像报告异常检测】1 数据分析和探索
关于医学影像报告异常检测竞赛的数据分析和探索。文中详细介绍了数据读取、统计词数、词频统计、句子长度统计、标签类别分布、正负样本分布、缺失值检查和句子最后一个字符的词频统计。通过这些分析,文章为理解数据集的特征提供了全面的视角,并为后续的模型训练和优化奠定了基础。
50 3
|
4月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】2 特征工程
本文详细介绍了在医学影像报告异常检测任务中进行特征工程的步骤和方法。
37 1
|
4月前
|
机器学习/深度学习 运维 算法
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】1 赛后总结与分析
对2021高校大数据挑战赛中智能运维异常检测与趋势预测赛题的赛后总结与分析,涉及赛题解析、不足与改进,并提供了异常检测、异常预测和趋势预测的方法和模型选择的讨论。
129 0
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】1 赛后总结与分析
|
5月前
|
人工智能 数据处理
《“AI+”职业趋势报告》揭示十大AI趋势,瓴羊AI训练师考证人数破十万
《“AI+”职业趋势报告》揭示十大AI趋势,瓴羊AI训练师考证人数破十万
173 0
|
数据采集 资源调度 安全
钟南山院士的最新预测二阳来袭,如何用R语言和SEIRS模型分析新冠疫情中国趋势?
钟南山院士的最新预测二阳来袭,如何用R语言和SEIRS模型分析新冠疫情中国趋势?
266 0
|
机器学习/深度学习 运维
《AIOps 自适应机器学习异常检测-刘贵阳&胡文杰》电子版地址
AIOps 自适应机器学习异常检测-刘贵阳&胡文杰
307 0
《AIOps 自适应机器学习异常检测-刘贵阳&胡文杰》电子版地址