DataFountain训练赛汇总,成长在于不断学习(中)

简介: DataFountain训练赛汇总,成长在于不断学习(中)

赛题介绍

81.png

image


赛题名:电商用户购买行为预测


赛道:训练赛道


背景:互联网的出现和普及给用户带来了大量的信息,满足了用户在信息时代对信息的需求,但是网上信息量的大幅增长也带来了“信息过载”的问题。这使得用户在面对大量信息时无法从中获得对自己真正有用的信息,导致用户对信息的使用效率大大降低了。为了帮助用户更快速地过滤出有用的信息,需要依据真实的用户购买行为记录,利用机器学习相关技术建立稳健的电商用户购买行为预测模型,用于预测用户的下一个行为,以此为用户进行商品的推荐,准确捕获用户的购买兴趣,提高电商平台商品的购买率。


任务:依据电子商务平平台上真实的用户行为记录,利用机器学习相关技术,建立稳健的电商用户购买行为预测模型,预测用户下一个可能会购买的商品。


数据简介


数据整理自一家中等化妆品在线商店公布的网上公开数据集,为该化妆品商店真实的用户交易信息,数据集中每一行表示一个事件,所有的事件都与商品和用户相关,并且用户的点击行为之间是有时间顺序的。数据集中包含了商品和用户的多个属性,例如商品编号、商品类别、用户编号、事件时间等。


数据说明


数据文件夹包含3个文件,依次为:


文件类别 文件名 文件内容
训练集 train.csv 训练数据集,标签为每个用户序列的最后一个商品编号
测试集 test.csv 测试数据集
提交样例 submission.csv 仅有两个字段user_id\product_id


文件字段说明:


名称 标签
event_time When event is was happened
event_type Event type: one of [view, cart, remove_from_cart, purchase]
product_id Product ID
category_id Product category ID
category_code Category meaningful name (if present)
brand Brand name in lower case (if present)
price Product price
user_id Permanent user ID
user_session User session ID

提交要求


建议提交方式:


参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:


字段名 类型 取值范围 字段解释
user_id Int - 用户ID
product_id Int - 商品ID

提交示例


示例如下:


user_id product_id
53978 5651977
53980

5877766

评测标准


本赛题采用召回率和平均倒数排名两个指标进行评价:


71.png

image


其中,TP是真正类,FN是假负类。是商品在推荐列表中的排名Ranki


赛题介绍


72.png

image


赛题名:通用音频分类


赛道:训练赛道


背景:随着移动终端的广泛应用以及数据量的不断积累,海量多媒体信息的处理需求日益凸显。作为多媒体信息的重要载体,音频信息处理应用广泛且多样,如自动语音识别、音乐风格识别等。有些声音是独特的,可以立即识别,例如婴儿的笑声或吉他的弹拨声。有些音频背景噪声复杂,很难区分。如果闭上眼睛,您能说出电锯和搅拌机是下面哪种声音?音频分类是音频信息处理领域的一个基本问题,从本质上说,音频分类的性能依赖于音频中的特征提取。传统特征提取算法使用音频特征的统计信息作为分类的依据,使用到的音频特征包括线性预测编码、短时平均能量等。近年来,基于深度学习的音频分类取得了较大进展。基于端到端的特征提取方式,深度学习可以避免繁琐的人工特征设计。音频的多样化给“机器听觉”带来了巨大挑战。如何对音频信息进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的音频归属到同一个集合,对于学术研究及工业应用具有重要意义。


任务:基于上述实际需求以及深度学习的进展,本次训练赛旨在构建通用的基于深度学习的自动音频分类系统。通过本赛题建立准确的音频分类模型,希望大家探索更为鲁棒的音频表述方法,以及转移学习、自监督学习等方法在音频分类中的应用。


数据简介


数据整理自网上公开数据集(已脱敏),数据集涵盖5类不同音频,该类数据集广泛应用于音频分类的业务场景。


数据说明


数据文件夹包含6个文件,依次为:


文件类别 文件名 文件内容
训练集音频文件夹 train 训练数据集音频文件
测试集音频文件夹 test 测试数据集音频文件
字段说明 字段说明.xlsx 训练集/测试集字段的具体说明
提交样例 submission.csv 仅有两个字段file_name\label

提交示例


建议提交方式:


参赛者以csv文件格式提交,提交模型结果到大数据竞赛平台,平台进行在线评分,实时排名。目前平台仅支持单文件提交,即所有提交内容需要放在一个文件中;submission.csv文件字段如下:


file_name label
478bndrgbs.wav bed
cxdlny4rd1.wav bed

评测标准


1、准确率(Accuracy):对于给定的测试数据集,预测正确的样本数与实际总样本数之比

2、True,表示预测正确的样本数数量

3、Total Number of Samples,表示实际总样本数数量

4、计算公式如下:


73.png

image

相关文章
|
机器学习/深度学习 数据采集 算法
DataFountain训练赛汇总,成长在于不断学习(下)
DataFountain训练赛汇总,成长在于不断学习(下)
274 0
DataFountain训练赛汇总,成长在于不断学习(下)
|
Java 大数据 Linux
【回望2022,走向2023】一个双非二本非科班的学生的旅途
【回望2022,走向2023】一个双非二本非科班的学生的旅途
129 0
【回望2022,走向2023】一个双非二本非科班的学生的旅途
|
3月前
|
人工智能 运维 安全
【年终总结系列 2023】成长与收获:回顾过去、展望未来,加油2024!
【1月更文挑战第1天】年关将至,富余的时间也稍显多了些,遂写下此文,好好回顾一下自己这一年的收获,同时也立下2024年的新年flag。
|
10月前
|
监控 架构师 安全
速读《技术人修炼之道》-看到最后定有收获
最近一段时间读完了《技术人修炼之道》,书中内容涵盖了作者多年实践和思想的结晶,整体读来有许多观点深有同感,也学习到了一些新的理念,在这里感谢黄哲铿老师。本文主要结合我自身十几年的IT行业经验,以及创业多年的感受,从书中提炼了一些个人觉得非常有价值并且好落地的点进行分享。
|
物联网 5G
你的第一堂创业“心法”课开课啦,来听听15位创业者的声音!
摘要:你的第一堂创业“心法”课开课啦,本次课程将带你走进有阿里云创新中心全新出品的《看见新力量》电子书第四期。用亲耳聆听的方式走进创业者和创新背后的故事,让你听到创业者的真实声音,看见科技创新的力量。
你的第一堂创业“心法”课开课啦,来听听15位创业者的声音!
|
程序员 开发者
十年老友记 | @民工哥:梦想是动力,但人终究要认清现实
十年老友记 | @民工哥:梦想是动力,但人终究要认清现实
123 0
|
前端开发 Java 程序员
十年老友记 | @Peter 谭老师:编程路上,梦想占比更重
十年老友记 | @Peter 谭老师:编程路上,梦想占比更重
140 0
|
机器学习/深度学习 XML JSON
DataFountain训练赛汇总,成长在于不断学习(上)
DataFountain训练赛汇总,成长在于不断学习(上)
291 0
DataFountain训练赛汇总,成长在于不断学习(上)
通往至高境界的磨刀石:读书(深度好文)
# 前言 读书,是通往至高境界的磨刀石。 在书中,你会与世界上那些思维最深,境界最高的大师相遇。在潜移默化的阅读中,在良性环境的影响中,会使你的心胸逐渐开阔,人格逐渐完整。 慢慢地,你看待事物的角度会更加多样,对本质的思考会更加深入。每一次的阅读,都是你与大师的心灵交流,在这里,你会遇见更好的自己,重塑一个全新的自我。 # 本文大纲 ![](https://p3-juejin.bytei
|
机器学习/深度学习 人工智能 自然语言处理
春节在家不再无聊,这份2019 AI研究进展回顾陪伴你
新春快乐!2019 年刚刚过去,去年有哪些最重要的研究是必须要记住的?本文将带你一并回顾
270 0
春节在家不再无聊,这份2019 AI研究进展回顾陪伴你