DataFountain训练赛汇总,成长在于不断学习(上)

简介: DataFountain训练赛汇总,成长在于不断学习(上)

赛题介绍


65.png

image


赛题名:室内用户运动时序数据分类


赛道:训练赛道


背景:随着数据量的不断积累,海量时序信息的处理需求日益凸显。作为时间序列数据分析中的重要任务之一,时间序列分类应用广泛且多样。时间序列分类旨在赋予序列某个离散标记。传统特征提取算法使用时间序列中的统计信息作为分类的依据。近年来,基于深度学习的时序分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。如何对时间序列中进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的序列归属到同一个集合,对于学术研究及工业应用具有重要意义。

任务:基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的时间序列分类算法。通过本赛题建立准确的时间序列分类模型,希望大家探索更为鲁棒的时序特征表述方法。


数据简介


基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的时间序列分类算法。通过本赛题建立准确的时间序列分类模型,希望大家探索更为鲁棒的时序特征表述方法。


数据说明


数据整理自网上公开数据集UCI(已脱敏),数据集涵盖2类不同时间序列,该类数据集广泛应用于时序分类的业务场景。


文件类别 文件名 文件内容
训练集 train.csv 训练数据集标签文件,标签CLASS
测试集 test.csv 测试数据集标签文件,无标签
字段说明 字段说明.xlsx 训练集/测试集XXX个字段的具体说明
提交样例 Ssample_submission.csv 仅有两个字段ID\CLASS

字段说明

名称 标签
ID 时间序列标识号
T0 T0时刻特征
T1 T1时刻特征
T239 T239时刻特征
CLASS 时间序列类别标记

提交示例


建议提交方式:

参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:


ID CLASS
210 0
211 1

评测标准


1、准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比

2、True,表示预测正确的样本数数量

3、Total Number of Samples,表示实际总样本数数量


计算公式如下:


66.png

image


赛题介绍


67.png

image


赛题名:野外环境中的蝴蝶自动识别


赛道:训练赛道


背景:昆虫是人类已知的生物类群中数量最庞大的分支之一,对该类群实现分类、鉴定是一项非常复杂的任务,也是昆虫研究领域亟需解决的重要问题。蝴蝶作为最常见的昆虫,凭借其美丽的外观吸引着众多昆虫爱好者以及昆虫学家去观赏与研究,并且蝴蝶作为宝贵的环境指标,地位独特,既能对气候和栖息地等环境变化做出快速反应,也是能反映一定区域内其他野生动植物的多样性。因此,野外环境中的蝴蝶识别与检测意义重大。


然而,蝴蝶种类繁多,全世界约有18000种,中国约有1700种。截至目前,蝴蝶种类识别依然依赖于昆虫分类学家根据蝴蝶翅膀背、腹面的花纹、颜色和图案特征所做的人工鉴定,这不仅需要昆虫学家长期的经验和知识积累,且费时费力,严重制约了蝴蝶作为环境指示昆虫的应用。另外,部分蝴蝶种类之间外观相似,难以区分。蝴蝶自身所具有的拟态性,使得蝴蝶很容易借助周围环境来隐藏自己,躲避天敌。野外环境中的蝴蝶,翅膀不一定展开,分类特征可能被遮挡。因此,野外环境中的蝴蝶识别与检测十分困难。


传统的蝴蝶种类识别方法就是人工鉴定,不仅耗时耗力,而且过于依赖有经验的昆虫学家,所以我们希望借助计算机视觉技术,通过人工智能技术对野外环境中的蝴蝶进行自动识别,从而帮助昆虫爱好者和昆虫学家以及一切从事相关研究的人员,能够快速准确地识别与检测野外环境中的蝴蝶。


任务:依据给定的蝴蝶在野外环境中的图像以及对应的标注文件,建立机器学习、深度学习模型来对图像中的蝴蝶进行目标检测。


数据简介


该数据集包含了第三届中国数据挖掘竞赛——国际首次蝴蝶识别大赛所使用的全部野外环境中拍摄的蝴蝶图像数据,共721张图像,94种蝴蝶,每一张图像对应一个标注文件,详细标注了蝴蝶的种类以及蝴蝶在图像中的矩形框坐标。


数据说明


用于竞赛的数据集应下载至datasets文件夹下,下载地址为http://www.sciencedb.cn/dataSet/handle/706,下载后应共有两个文件夹:Annotations和JPEGImages。其中Annotations为数据集的标注信息文件夹,包含每个训练图像对应的xml文件,内容格式可参考pascal voc 2007数据集中的标注文件格式,采用UTF-8无BOM编码格式;JPEGImages为训练的图像数据,其名称和Annotations文件夹中的名称一一对应。


提交要求


建议提交方式:

参赛者以json文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单任务单文件提交,由于该赛题任务为:自然环境中蝴蝶图像的目标检测,请参赛者提交检测结果submission.json。


submission.json为一个字典文件,键为类别索引【参考提交样例】,值为对应类别预测的结果列表,列表中每一个元素为单独一张图像的预测结果信息,每条信息包含的字段

如下:


字段名 类型 取值范围 字段解释
image_name String - 文件名
confidence float [0.0,1.0] 分类置信度
x1 float (-∞,+∞) 预测框左上横坐标
y1 float (-∞,+∞) 预测框左上纵坐标
x2 float (-∞,+∞) 预测框右下横坐标
y2 float (-∞,+∞) 预测框右下纵坐标


【注】:x1, y1, x2, y2对应预测坐标在原图大小的坐标值,不能经过任何放缩或者变换,否则会造成最终评分异常。


提交示例


提交结果命名为submission.json,编码格式为UTF-8无BOM编码格式,且同一张图像数据可以有多条预测结果,即在对应类别列表中有多条image_name相同的预测信息。字段要求和内容格式见【提交要求】。具体示例:

{

‘0’:[

[ “IMG_000001”,0.55 ,1000,1000,2000,2000],

[ “IMG_000001”,0.55 ,1000,1000,2000,2000],

[ “IMG_000002”,0.75 ,1000,1000,2000,2000],

],

‘1’:[

[ “IMG_000002”,0.75 ,1000,1000,2000,2000],

[“IMG_000002”,0.75 ,1000,1000,2000,2000],

[“IMG_000003”,0.65 ,1000,1000,2000,2000],

],

‘2’:[

[ “IMG_000002”,0.75 ,1000,1000,2000,2000],

[“IMG_000002”,0.75 ,1000,1000,2000,2000],

[“IMG_000003”,0.65 ,1000,1000,2000,2000],

],

…}

【评测标准】


评价标准:我们用目标检测问题中最常用的度量标准 – 平均精度均值(mean Average Precision, mAP)作为任务的评价指标(all-points-interpolation法),结果采用以下计算规则:


1 根据ground truth 信息,统计每个类别所有预测实例,最终得到该类别的精确度(Percision)和召回率(Recall)列表,两者计算公式为:


68.png

image


2 设索引为i的类精确度为Pi,召回率为Ri,均为列表,Ri相邻两位(k和k-1位)的召回率差值为^rk,则索引为i的类的平均精度计算公式为:


69.png

image


3 计算mAP


70.png

image


相关文章
|
机器学习/深度学习 数据采集 算法
DataFountain训练赛汇总,成长在于不断学习(下)
DataFountain训练赛汇总,成长在于不断学习(下)
298 0
DataFountain训练赛汇总,成长在于不断学习(下)
|
2月前
|
人工智能 架构师 NoSQL
24岁程序媛,二战考研失利、三无人员 ==> 最佳新人、优秀个人,讲讲我的技术成长之路
能力、格局、谋略、远见、耐心。灵魂的欲望是命运的先知,希望永远自信、洒脱、松弛、明媚、张扬;追随自己的内心、以喜欢的方式、往正确的方向前行,永远在路上,我甘之如饴! 持续精进Java领域相关技术,包括微服务、高并发、高可用、分布式、集群等等;希望能接触到更多更大的优质项目,逐渐成长为一名具备全栈思维的架构师,既能深入理解底层技术,又能把控全局架构;抽时间了解学习Go语言、人工智能、大模型等领域。 在探索中明晰后续的发展方向,形成自己的一套体系,成为主管、管理层乃至更高,不希望自己的上限只是程序员。
|
5天前
|
前端开发 JavaScript UED
不可思议!前端小白如何靠这些技巧逆袭,成为团队中的闪耀之星?
前端开发对初学者来说充满挑战,但通过正确的方法和技巧,你可以从新手蜕变为高手。本文分享前端小白逆袭的秘诀,包括夯实HTML、CSS与JavaScript基础,掌握前端框架与库,提升性能优化技巧,以及持续学习与分享。示例代码展示了简单的HTML+CSS+JavaScript页面和Vue组件,帮助你逐步进阶。
15 4
|
2月前
|
JavaScript 前端开发 Java
技术探索之旅:从迷茫到顿悟
本文记录了作者在技术领域的探索历程,从初入行的迷茫、尝试新领域的勇气,到不断学习和提升后的顿悟。通过个人经历,展现了技术成长的曲折与收获。
|
6月前
职场成长故事-阿里10多年不为人知的经验都在这了——【大学生就业训练营】系列第七课
系列课程共有八节,下方完成视频课程观看并在评论区回复学习心得,还可以领取惊喜礼品~
331503 995
|
6月前
|
算法 C++
我与C++的邂逅与成长
在编程之旅中,作者与C++的相遇是其缘分的开始。C++作为作者的首门编程语言,以它的严谨和灵活性吸引了作者。通过学习C++,作者领略到编程的逻辑与思维精髓,理解了如何解决问题并提升了分析、算法设计和代码优化的技巧。尽管过程中遇到挑战,但这些困难深化了作者对C++的理解,磨练了其编程决心。C++学习的经历也让作者认识到编程不仅是技能,更是一种追求完美的态度,影响了作者对待生活的方方面面。作者分享了一段C++代码示例,展示了在实践中学习和运用C++的概念。这段旅程让作者成长并期待未来与C++共创更多成就。
|
6月前
|
数据采集 人工智能 自然语言处理
回望做大模型一年后的感悟
本文为转载,就不计入我的一月更文计划中了。本文作者:刘聪NLP , NLP算法工程师,专业炼丹师。原文链接见:https://mp.weixin.qq.com/s/CfAY8FCrQKKIrQx3U10EcQ
|
6月前
|
人工智能 运维 安全
【年终总结系列 2023】成长与收获:回顾过去、展望未来,加油2024!
【1月更文挑战第1天】年关将至,富余的时间也稍显多了些,遂写下此文,好好回顾一下自己这一年的收获,同时也立下2024年的新年flag。
|
机器学习/深度学习 算法 大数据
DataFountain训练赛汇总,成长在于不断学习(中)
DataFountain训练赛汇总,成长在于不断学习(中)
209 0
DataFountain训练赛汇总,成长在于不断学习(中)
|
测试技术 程序员
风雨20年:我所积累的20条编程经验【转】
风雨20年:我所积累的20条编程经验Posted by zhaoxingyun on 十一月 13th, 2010 | Comments off原文作者乔纳森·丹尼可(Jonathan Danylko)是一位自由职业的web架构师和程序员,编程经验已超过20年,涉足领域有电子商务、生物技术、房地产、医疗、保险和公用事业。
828 1