DataFountain训练赛汇总,成长在于不断学习(中)

简介: DataFountain训练赛汇总,成长在于不断学习(中)

赛题介绍

81.png

image


赛题名:电商用户购买行为预测


赛道:训练赛道


背景:互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但是网上信息量的大幅增长也带来了“信息过载”的问题。这使得用户在面对大量信息时无法从中获得对自己真正有用的信息,导致用户对信息的使用效率大大降低了。为了帮助用户更快速地过滤出有用的信息,需要依据真实的用户购买行为记录,利用机器学习相关技术建立稳健的电商用户购买行为预测模型,用于预测用户的下一个行为,以此为用户进行商品的推荐,准确捕获用户的购买兴趣,提高电商平台商品的购买率。


任务:依据电子商务平平台上真实的用户行为记录,利用机器学习相关技术,建立稳健的电商用户购买行为预测模型,预测用户下一个可能会购买的商品。


数据简介


数据整理自一家中等化妆品在线商店公布的网上公开数据集,为该化妆品商店真实的用户交易信息,数据集中每一行表示一个事件,所有的事件都与商品和用户相关,并且用户的点击行为之间是有时间顺序的。数据集中包含了商品和用户的多个属性,例如商品编号、商品类别、用户编号、事件时间等。


数据说明


数据文件夹包含3个文件,依次为:


文件类别 文件名 文件内容
训练集 train.csv 训练数据集,标签为每个用户序列的最后一个商品编号
测试集 test.csv 测试数据集
提交样例 submission.csv 仅有两个字段user_id\product_id


文件字段说明:


名称 标签
event_time When event is was happened
event_type Event type: one of [view, cart, remove_from_cart, purchase]
product_id Product ID
category_id Product category ID
category_code Category meaningful name (if present)
brand Brand name in lower case (if present)
price Product price
user_id Permanent user ID
user_session User session ID

提交要求


建议提交方式:


参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:


字段名 类型 取值范围 字段解释
user_id Int - 用户ID
product_id Int - 商品ID

提交示例


示例如下:


user_id product_id
53978 5651977
53980

5877766

评测标准


本赛题采用召回率和平均倒数排名两个指标进行评价:


71.png

image


其中,TP是真正类,FN是假负类。是商品在推荐列表中的排名Ranki


赛题介绍


72.png

image


赛题名:通用音频分类


赛道:训练赛道


背景:随着移动终端的广泛应用以及数据量的不断积累,海量多媒体信息的处理需求日益凸显。作为多媒体信息的重要载体,音频信息处理应用广泛且多样,如自动语音识别、音乐风格识别等。有些声音是独特的,可以立即识别,例如婴儿的笑声或吉他的弹拨声。有些音频背景噪声复杂,很难区分。如果闭上眼睛,您能说出电锯和搅拌机是下面哪种声音?音频分类是音频信息处理领域的一个基本问题,从本质上说,音频分类的性能依赖于音频中的特征提取。传统特征提取算法使用音频特征的统计信息作为分类的依据,使用到的音频特征包括线性预测编码、短时平均能量等。近年来,基于深度学习的音频分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。音频的多样化给“机器听觉”带来了巨大挑战。如何对音频信息进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的音频归属到同一个集合,对于学术研究及工业应用具有重要意义。


任务:基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的基于深度学习的自动音频分类系统。通过本赛题建立准确的音频分类模型,希望大家探索更为鲁棒的音频表述方法,以及转移学习、自监督学习等方法在音频分类中的应用。


数据简介


数据整理自网上公开数据集(已脱敏),数据集涵盖5类不同音频,该类数据集广泛应用于音频分类的业务场景。


数据说明


数据文件夹包含6个文件,依次为:


文件类别 文件名 文件内容
训练集音频文件夹 train 训练数据集音频文件
测试集音频文件夹 test 测试数据集音频文件
字段说明 字段说明.xlsx 训练集/测试集字段的具体说明
提交样例 submission.csv 仅有两个字段file_name\label

提交示例


建议提交方式:


参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:


file_name label
478bndrgbs.wav bed
cxdlny4rd1.wav bed

评测标准


1、准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比

2、True,表示预测正确的样本数数量

3、Total Number of Samples,表示实际总样本数数量

4、计算公式如下:


73.png

image

相关文章
|
机器学习/深度学习 数据采集 算法
DataFountain训练赛汇总,成长在于不断学习(下)
DataFountain训练赛汇总,成长在于不断学习(下)
298 0
DataFountain训练赛汇总,成长在于不断学习(下)
|
2月前
|
JavaScript 前端开发 Java
技术探索之旅:从迷茫到顿悟
本文记录了作者在技术领域的探索历程,从初入行的迷茫、尝试新领域的勇气,到不断学习和提升后的顿悟。通过个人经历,展现了技术成长的曲折与收获。
|
6月前
|
数据采集 人工智能 自然语言处理
回望做大模型一年后的感悟
本文为转载,就不计入我的一月更文计划中了。本文作者:刘聪NLP , NLP算法工程师,专业炼丹师。原文链接见:https://mp.weixin.qq.com/s/CfAY8FCrQKKIrQx3U10EcQ
|
6月前
|
人工智能 运维 安全
【年终总结系列 2023】成长与收获:回顾过去、展望未来,加油2024!
【1月更文挑战第1天】年关将至,富余的时间也稍显多了些,遂写下此文,好好回顾一下自己这一年的收获,同时也立下2024年的新年flag。
|
程序员
《长安三万里》给程序员的启发
前段时间陪孩子一起看了《长安三万里》,结合这些年自己走过的路,内心有不少感触。不论电影评价怎样,也不论事实如何,单从程序员的角度,来说说三点启发
|
存储 监控 安全
从平凡到非凡 阿里云李克的技术进阶之路
人物简介:李克 阿里云边缘云计算领域技术负责人 2009年硕士毕业加入阿里至今,一直从事CDN及边缘云领域的技术研发工作,在CDN、边缘计算等方向上有丰富的行业经验,全程参与了阿里云CDN商业化转型,边缘云中台体系的建设,研究方向包括数据智能、分布式架构和性能优化、云计算等领域。目前主要负责边缘云的技术研发以及架构演进。
925 1
从平凡到非凡 阿里云李克的技术进阶之路
|
程序员 开发者
十年老友记 | @民工哥:梦想是动力,但人终究要认清现实
十年老友记 | @民工哥:梦想是动力,但人终究要认清现实
138 0
|
机器学习/深度学习 XML JSON
DataFountain训练赛汇总,成长在于不断学习(上)
DataFountain训练赛汇总,成长在于不断学习(上)
330 0
DataFountain训练赛汇总,成长在于不断学习(上)
|
大数据 程序员 开发者
我与阿里云的成长故事
我与阿里云的成长故事
286 0
我与阿里云的成长故事
|
设计模式 架构师 算法
听玄姐的职业成长,探技术人的道与术
在前几天曾经分享了一个直播的介绍,分享人孙玄(人称玄姐),他是前58集团技术委员会主席 & 前转转公司技术委员会主席 & 首席架构师。我自己也在五一节期间观看了这场直播的录播视频,做了一些总结笔记,特此分享与你,希望对你有帮助。
1136 0