赛题介绍
image
赛题名:电商用户购买行为预测
赛道:训练赛道
背景:互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但是网上信息量的大幅增长也带来了“信息过载”的问题。这使得用户在面对大量信息时无法从中获得对自己真正有用的信息,导致用户对信息的使用效率大大降低了。为了帮助用户更快速地过滤出有用的信息,需要依据真实的用户购买行为记录,利用机器学习相关技术建立稳健的电商用户购买行为预测模型,用于预测用户的下一个行为,以此为用户进行商品的推荐,准确捕获用户的购买兴趣,提高电商平台商品的购买率。
任务:依据电子商务平平台上真实的用户行为记录,利用机器学习相关技术,建立稳健的电商用户购买行为预测模型,预测用户下一个可能会购买的商品。
数据简介
数据整理自一家中等化妆品在线商店公布的网上公开数据集,为该化妆品商店真实的用户交易信息,数据集中每一行表示一个事件,所有的事件都与商品和用户相关,并且用户的点击行为之间是有时间顺序的。数据集中包含了商品和用户的多个属性,例如商品编号、商品类别、用户编号、事件时间等。
数据说明
数据文件夹包含3个文件,依次为:
文件类别 | 文件名 | 文件内容 |
训练集 | train.csv | 训练数据集,标签为每个用户序列的最后一个商品编号 |
测试集 | test.csv | 测试数据集 |
提交样例 | submission.csv | 仅有两个字段user_id\product_id |
文件字段说明:
名称 | 标签 |
event_time | When event is was happened |
event_type | Event type: one of [view, cart, remove_from_cart, purchase] |
product_id | Product ID |
category_id | Product category ID |
category_code | Category meaningful name (if present) |
brand | Brand name in lower case (if present) |
price | Product price |
user_id | Permanent user ID |
user_session | User session ID |
提交要求
建议提交方式:
参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:
字段名 | 类型 | 取值范围 | 字段解释 |
user_id | Int | - | 用户ID |
product_id | Int | - | 商品ID |
提交示例
示例如下:
user_id | product_id |
53978 | 5651977 |
53980 | 5877766 |
评测标准
本赛题采用召回率和平均倒数排名两个指标进行评价:
image
其中,TP是真正类,FN是假负类。是商品在推荐列表中的排名Ranki
赛题介绍
image
赛题名:通用音频分类
赛道:训练赛道
背景:随着移动终端的广泛应用以及数据量的不断积累,海量多媒体信息的处理需求日益凸显。作为多媒体信息的重要载体,音频信息处理应用广泛且多样,如自动语音识别、音乐风格识别等。有些声音是独特的,可以立即识别,例如婴儿的笑声或吉他的弹拨声。有些音频背景噪声复杂,很难区分。如果闭上眼睛,您能说出电锯和搅拌机是下面哪种声音?音频分类是音频信息处理领域的一个基本问题,从本质上说,音频分类的性能依赖于音频中的特征提取。传统特征提取算法使用音频特征的统计信息作为分类的依据,使用到的音频特征包括线性预测编码、短时平均能量等。近年来,基于深度学习的音频分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。音频的多样化给“机器听觉”带来了巨大挑战。如何对音频信息进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的音频归属到同一个集合,对于学术研究及工业应用具有重要意义。
任务:基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的基于深度学习的自动音频分类系统。通过本赛题建立准确的音频分类模型,希望大家探索更为鲁棒的音频表述方法,以及转移学习、自监督学习等方法在音频分类中的应用。
数据简介
数据整理自网上公开数据集(已脱敏),数据集涵盖5类不同音频,该类数据集广泛应用于音频分类的业务场景。
数据说明
数据文件夹包含6个文件,依次为:
文件类别 | 文件名 | 文件内容 |
训练集音频文件夹 | train | 训练数据集音频文件 |
测试集音频文件夹 | test | 测试数据集音频文件 |
字段说明 | 字段说明.xlsx | 训练集/测试集字段的具体说明 |
提交样例 | submission.csv | 仅有两个字段file_name\label |
提交示例
建议提交方式:
参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:
file_name | label |
478bndrgbs.wav | bed |
cxdlny4rd1.wav | bed |
… | … |
评测标准
1、准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比
2、True,表示预测正确的样本数数量
3、Total Number of Samples,表示实际总样本数数量
4、计算公式如下:
image