赛题名:工业设备“亚健康”识别算法研究
比赛链接:https://www.datafountain.cn/competitions/488/datasets
背景:随着工业科技不断发展,工厂的设备都趋向大型化、智能化,滚动轴承是工业旋转设备必不可少的关键性的部件,占比高达30%,由于其工作时间较长且工作负荷较大,又极其的复杂,不免会有损坏,对其进行状态监测是极具意义且对很多行业都是极具价值。考虑到轴承故障不是一瞬间形成,可以借鉴医学上的“亚健康”状态来表征轴承的带病运行状态,处于这个状态的设备不会马上不能运行,但继续运行而不更换零件就会使“亚健康”状态加深,慢慢就会成为故障状态,继而导致设备停工,因而对“亚健康”设备的健康状态监测是很有经济意义和安全意义的。
任务:本任务旨在构建一种机器学习算法模型,建立振动信号和“亚健康”状态之间的关系,通过一系列手段,使得模型具有更高的准确率、更好的鲁棒性和泛化性。
数据简介
本实验数据选取Case Western Reserve University实测的轴承数据集。
端的轴承座上方放置一个加速度传感器用来采集故障轴承的振动加速度信号。振动信号由16 通道数据记录仪采集得到,采样频率为12 kHz。功率和转速通过扭矩传感器/译码器测得。由于这种条件采集到的数据已标准化,且受到了很多学者的认可,具有较强的鲁棒性,因此我们采用此数据来验证本文提出算法的有效性。
数据说明
采集了电机负载0,1,2,3马赫下,分别四种状态的轴承数据,即正常、内圈故障、滚动体故障、外圈故障,每个样本均有编号,来验证本文提出的算法。
具体参数如表所示:实验装置参数
文件集 | 负载 | 文件说明 |
训练集 | 0 | 0,1,2,3分别表示正常,内圈故障,滚动体故障,外圈故障信号标签。 |
测试集 | 0,1 | 滑动窗口的大小为512,按照正常,内圈,滚动体,外圈故障分别输出预测0,1,2,3,按照顺序打上id,共有1136条。 |
提交要求
csv结果提交:针对算法竞赛,参赛者以csv文件格式,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。
文件编码:UTF-8
提交示例
评测标准
采用分类任务的精确率 P(precision)、召回率 R(recall) 和 F1 值三个指标作为模型性能的评判标准。
赛题名:非小细胞肺癌肿瘤自动分割
比赛链接:https://www.datafountain.cn/competitions/489
背景:肺癌是全球发病率最高的恶性肿瘤,其中,鳞状细胞癌、腺癌等非小细胞癌(NSCLC)占目前肺癌的80%。因此,对NSCLC的辅助诊断和分割,成为目前临床肺癌相关治疗的关键技术,对提升患者5年生存率和改善患者预后效果至关重要。随着医学技术的日益发展和医学成像设备的不断创新,CT和MR等影像设备成为临床医生不可或缺的重要诊疗设备。CT是目前临床肺癌相关诊断、放射治疗等最为常见的成像模态,研究CT对病灶区域的自动识别和分割,可有效辅助医生的诊断同时,提高医生的阅片效率和勾画效率,对临床肺癌诊疗具有重要的参考价值。
目前临床对NSCLC的病灶分割,主要由专家人工勾画实现,在经验水平和工作强度等临床因素影响,分割勾画结构无法避免人为误差。若采用人工智能等方法,需要较为精准的海量标注,时间人力成本较高,如何利用小样本数据集进行肺癌肿瘤的自动精准勾画,成为目前热门研究方向之一。
任务:本赛题任务是利用图像处理、机器学习、深度学习等方法训练一个NSCLC肿瘤的分割模型,该模型通过小样本的CT数据集实现,通过对医学影像的深层特征提取,实现病灶精确分割。该任务可为临床放射治疗的治疗靶区(CTV)和计划靶区(PTV)等勾画提供快速的参考结果,对临床的辅助诊断和预后分析相关研究有重要的技术支
数据简介
数据整理自某网站上你的网上公开数据集(已脱敏),为真实的非小细胞肺癌的CT数据集,包括CT图像原始数据、肿瘤的标注数据;可应用于肿瘤靶区勾画和数据分析等场景。
数据说明
数据文件夹包含2个文件,依次为:
文件类别 | 文件名 | 文件内容 |
训练图像 | Image.nii.gz | 胸部CT图像 |
训练标签 | mask.nii.gz | 肿瘤分割标签 |
测试图像 | Image.nii.gz | 胸部CT图像 |
提交要求
建议提交方式:
参赛者以zip文件格式提交(将分割模型按编号压缩成zip文件),提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;zip文件文件夹如下:
文件夹名称 | 文件名称 | 说明 |
xxx | pred_mask.nii.gz | xxx图像对应自动分割的结果 |
提交示例
文件夹名称 | 文件 |
001 | pred_mask.nii.gz |
002 | pred_mask.nii.gz |
评测标准
本赛题采用DICE值进行评价,详细评分算法如下:
其中,pred是模型分割结果,label是金标,通过以上公式得到该图像Dice值。
赛题名:Fashion-MNIST分类练习
比赛链接:https://www.datafountain.cn/competitions/490
背景:图像分类(image classification)是计算机视觉领域中最简单最基础的任务,学习研究图像分类是每个计算机视觉研究者的必经之路,图像分类网络也是很多更复杂任务(如目标检测、语义分割等)算法的基础。本练习赛旨在让选手们用图像分类任务来以赛代练、熟悉深度学习框架和比赛流程。
在图像分类学习中,MNIST数据集常被用来作为入门教学数据集。但是,MNIST数据集存在一些问题:首先,MNIST数据集对于现在的卷积神经网络来说过于简单,SOTA模型的分类精度达到了99.84%,甚至传统机器学习方法也能达到97%的精度,因此模型的精度在此达到了饱和,几乎没有提升的空间;再者,有些专家对MNIST数据集提出了质疑,比如谷歌的深度学习专家、Keras的作者François Chollet曾表示:“MNIST存在很多问题,但最重要的是,它真的不具有计算机视觉任务的代表性。”并补充道:“很多好点子(比如batch norm)在MNIST上效果差,但相反的,一些差的方法可能在MNIST产生好效果,却不能迁移到真实计算机视觉任务中。”
总之,用MNIST数据集来学习计算机视觉既不够有难度,又不便学习到能运用到真实计算机视觉任务中的方法。因此,本练习赛采用和MNIST同等规模但更有难度的数据集Fashion-MNIST(github链接:https://github.com/zalandoresearch/fashion-mnist),Fashion-MNIST由60000张训练集图像、10000张测试集图像及对应的标签构成,每张图像是分辨率为28x28的灰度图像,包含10种分类:T恤、裤子、套头衫、连衣裙、大衣、凉鞋、衬衫、运动鞋、包、短靴。
本练习赛的参赛者可以使用Tensorflow、Keras、Pytorch、Paddlepaddle等开源深度学习框架来进行模型的搭建、训练和预测。
任务:本任务旨在构建一种机器学习算法模型,建立振动信号和“亚健康”状态之间的关系,通过一系列手段,使得模型具有更高的准确率、更好的鲁棒性和泛化性。
提交示例
预测结果保存在 result.csv 中。提交的csv文件格式如下:
0.jpg | 8 |
1.jpg | 6 |
2.jpg | 1 |
3.jpg | 5 |
4.jpg | 0 |
…… | …… |
评测标准
本练习赛采用正确率(Accuracy)为评测标准。
在分类任务中,正确率是更为直观的一种衡量方法,即统计样本预测值与实际值一致的情况占整个样本的比例(衡量样本被正确标注的数量),即score = 正确数/总数。