DataFountain训练赛汇总,成长在于不断学习(中)

简介: DataFountain训练赛汇总,成长在于不断学习(中)

赛题介绍

81.png

image


赛题名:电商用户购买行为预测


赛道:训练赛道


背景:互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但是网上信息量的大幅增长也带来了“信息过载”的问题。这使得用户在面对大量信息时无法从中获得对自己真正有用的信息,导致用户对信息的使用效率大大降低了。为了帮助用户更快速地过滤出有用的信息,需要依据真实的用户购买行为记录,利用机器学习相关技术建立稳健的电商用户购买行为预测模型,用于预测用户的下一个行为,以此为用户进行商品的推荐,准确捕获用户的购买兴趣,提高电商平台商品的购买率。


任务:依据电子商务平平台上真实的用户行为记录,利用机器学习相关技术,建立稳健的电商用户购买行为预测模型,预测用户下一个可能会购买的商品。


数据简介


数据整理自一家中等化妆品在线商店公布的网上公开数据集,为该化妆品商店真实的用户交易信息,数据集中每一行表示一个事件,所有的事件都与商品和用户相关,并且用户的点击行为之间是有时间顺序的。数据集中包含了商品和用户的多个属性,例如商品编号、商品类别、用户编号、事件时间等。


数据说明


数据文件夹包含3个文件,依次为:


文件类别 文件名 文件内容
训练集 train.csv 训练数据集,标签为每个用户序列的最后一个商品编号
测试集 test.csv 测试数据集
提交样例 submission.csv 仅有两个字段user_id\product_id


文件字段说明:


名称 标签
event_time When event is was happened
event_type Event type: one of [view, cart, remove_from_cart, purchase]
product_id Product ID
category_id Product category ID
category_code Category meaningful name (if present)
brand Brand name in lower case (if present)
price Product price
user_id Permanent user ID
user_session User session ID

提交要求


建议提交方式:


参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:


字段名 类型 取值范围 字段解释
user_id Int - 用户ID
product_id Int - 商品ID

提交示例


示例如下:


user_id product_id
53978 5651977
53980

5877766

评测标准


本赛题采用召回率和平均倒数排名两个指标进行评价:


71.png

image


其中,TP是真正类,FN是假负类。是商品在推荐列表中的排名Ranki


赛题介绍


72.png

image


赛题名:通用音频分类


赛道:训练赛道


背景:随着移动终端的广泛应用以及数据量的不断积累,海量多媒体信息的处理需求日益凸显。作为多媒体信息的重要载体,音频信息处理应用广泛且多样,如自动语音识别、音乐风格识别等。有些声音是独特的,可以立即识别,例如婴儿的笑声或吉他的弹拨声。有些音频背景噪声复杂,很难区分。如果闭上眼睛,您能说出电锯和搅拌机是下面哪种声音?音频分类是音频信息处理领域的一个基本问题,从本质上说,音频分类的性能依赖于音频中的特征提取。传统特征提取算法使用音频特征的统计信息作为分类的依据,使用到的音频特征包括线性预测编码、短时平均能量等。近年来,基于深度学习的音频分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。音频的多样化给“机器听觉”带来了巨大挑战。如何对音频信息进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的音频归属到同一个集合,对于学术研究及工业应用具有重要意义。


任务:基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的基于深度学习的自动音频分类系统。通过本赛题建立准确的音频分类模型,希望大家探索更为鲁棒的音频表述方法,以及转移学习、自监督学习等方法在音频分类中的应用。


数据简介


数据整理自网上公开数据集(已脱敏),数据集涵盖5类不同音频,该类数据集广泛应用于音频分类的业务场景。


数据说明


数据文件夹包含6个文件,依次为:


文件类别 文件名 文件内容
训练集音频文件夹 train 训练数据集音频文件
测试集音频文件夹 test 测试数据集音频文件
字段说明 字段说明.xlsx 训练集/测试集字段的具体说明
提交样例 submission.csv 仅有两个字段file_name\label

提交示例


建议提交方式:


参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:


file_name label
478bndrgbs.wav bed
cxdlny4rd1.wav bed

评测标准


1、准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比

2、True,表示预测正确的样本数数量

3、Total Number of Samples,表示实际总样本数数量

4、计算公式如下:


73.png

image

相关文章
|
SQL Java 数据库
【面经】亚信科技面试问题合集
【面经】亚信科技面试问题合集
315 3
|
JavaScript 前端开发 数据库
vue+elementUi实现将数字转化为 对应的字符串内容
该博客文章介绍了如何在Vue框架结合Element UI组件库中,将数字状态字段转换为具体的字符串描述,并通过`el-table-column`展示在表格中。
vue+elementUi实现将数字转化为 对应的字符串内容
|
SQL 存储 大数据
SQL 语言发展史简直太震撼啦!从诞生到现代数据处理,见证一场奇妙的演变之旅,快来感受!
【8月更文挑战第31天】SQL(结构化查询语言)自20世纪70年代由IBM研究员E.F. Codd提出以来,已成为现代数据处理不可或缺的一部分。它最初简化了层次和网状模型中复杂的存储与检索问题,通过基本的SELECT、FROM和WHERE关键字实现了数据查询。80年代,SQL在商业数据库中广泛应用,引入了GROUP BY、HAVING和ORDER BY等功能,增强了数据分析能力。90年代,互联网和企业信息化推动了SQL的进一步优化与扩展,支持分布式数据库和数据仓库等技术。
542 0
|
算法 C++
大地经纬度坐标与地心地固坐标的的转换
大地经纬度坐标与地心地固坐标的的转换
442 0
|
安全 Linux 开发者
在Linux中,内核模块是什么以及如何加载和卸载它们?
在Linux中,内核模块是什么以及如何加载和卸载它们?
echars 设置文字倾斜 图表根据鼠标滑轮自动改变x轴数据
echars 设置文字倾斜 图表根据鼠标滑轮自动改变x轴数据
214 1
|
机器学习/深度学习 数据挖掘
机器学习之聚类——模糊聚类FCM
机器学习之聚类——模糊聚类FCM
452 4
|
机器学习/深度学习 数据采集 运维
智能之网:深度学习在网络安全防御中的应用
随着网络攻击手段的日益复杂化,传统的安全防御措施已难以应对新型威胁。深度学习技术因其在数据处理和模式识别方面的强大能力,被广泛应用于网络安全领域。本文将探讨深度学习如何革新网络安全防御机制,包括其工作原理、应用实例及面临的挑战与未来发展方向。
|
虚拟化
VirtualBox安装OpenEuler1
VirtualBox安装OpenEuler
247 0
|
PyTorch 算法框架/工具 异构计算
PyTorch 2.2 中文官方教程(二十)(4)
PyTorch 2.2 中文官方教程(二十)
303 0
PyTorch 2.2 中文官方教程(二十)(4)