天翼杯大数据算法应用大赛

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 代码:https://github.com/jinhang/TianYiBeiBigDataMatch 一、赛题 根据前7周用户访问十个视频网站数据及其他上网行为数据,预测用户第8周访问十个视频网站的访问量——选手提交每个userid第八周每天分别访问十个视频网站的次数。

代码:https://github.com/jinhang/TianYiBeiBigDataMatch

一、赛题 根据前7周用户访问十个视频网站数据及其他上网行为数据,预测用户第8周访问十个视频网站的访问量——选手提交每个userid第八周每天分别访问十个视频网站的次数。

二、赛题数据格式说明 第二赛段赛题数据(PaaS平台目录名:game-data)包括两个部分: 1. 十个视频网站数据,PaaS平台目录名:video-visit-data; 2. 其他上网行为数据,PaaS平台目录名:user-behavior-data。 请注意: Ø 以上数据均以0.5小时为粒度统计,即:每0.5小时对用户访问量进行一次汇总; Ø 本次赛题共抽取了299933个用户的数据; Ø 赛题数据总大小为25.38G,其中十个视频网站数据大小为0.38G,其他上网行为数据大小为25G。

2.1 十个视频网站数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示: C:UsersDellDesktop�.jpg 2.2 其他上网行为标签数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示: C:UsersDellDesktop�.jpg

三、结果数据格式说明 选手需要将预测结果存入txt文本文件中,并采用如下格式: C:UsersDellDesktop�.jpg 说明: 1、user_id与预测结果之间用tab分隔符分割; 2、d1_v1表示第八周第一天视频网站1的访问量,访问量必须为非负整数。 3、预测结果按照日期排列由近到远,同一个日期内按照赛题给出的视频网站顺序排列,预测数据之间用逗号分割。 4、上传格式必须为txt格式,不能添加header。 样例如下图所示: C:UsersDellDesktop�.jpg 评分标准 大赛采用准确率和召回率作为排行榜的评分依据,排行榜评分由二者运算后的F1值得出,详细评分说明如下。 (1) 准确率:用于评估预测的准确度。

采用余弦相似度判断每个用户在第八周每天对十个视频网站的访问量的准确度,并除以选手预测的用户数量。 C:UsersDellDesktop�.jpg

注: N为选手预测的有访问记录的用户数量。 Similarity为每个被预测用户对10个网站7天的访问量预估的余弦相似度。若被预测的用户并未在第八周出现,则默认真实值为该用户对所有视频网站的访问量为0。 UserCount为选手预测的用户数量(包括被列出但对所有视频网站访问量为0的记录) 有访问记录,即至少存在对某一视频网站某天的访问量不为0的记录。 (2) 召回率:用于评估预测覆盖的用户数量。

C:UsersDellDesktop8.jpg 注: (a)rUserCount:为真实有访问记录的用户数量 (b)hitUserCount:预测的有访问记录的用户列表与真实有访问记录的用户列表的交集的用户个数。 (c)有访问记录,即至少存在对某一视频网站某天的访问量不为0的记录。 (3) F1值:排名所用分数。

C:UsersDellDesktop9.jpg 大赛最终将以F1值由高到低进行排名。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
50 3
|
8天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
12天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
29 1
|
12天前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
37 1
|
21天前
|
缓存 算法 网络协议
OSPF的路由计算算法:原理与应用
OSPF的路由计算算法:原理与应用
35 4
|
19天前
|
机器学习/深度学习 监控 算法
基于反光衣和检测算法的应用探索
本文探讨了利用机器学习和计算机视觉技术进行反光衣检测的方法,涵盖图像预处理、目标检测与分类、特征提取等关键技术。通过YOLOv5等模型的训练与优化,展示了实现高效反光衣识别的完整流程,旨在提升智能检测系统的性能,应用于交通安全、工地监控等领域。
|
21天前
|
存储 算法 网络协议
OSPF的SPF算法介绍:原理、实现与应用
OSPF的SPF算法介绍:原理、实现与应用
47 3
|
22天前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
1月前
|
缓存 算法 大数据
大数据查询优化算法
【10月更文挑战第26天】
57 1
|
1月前
|
机器学习/深度学习 JSON 算法
二叉树遍历算法的应用场景有哪些?
【10月更文挑战第29天】二叉树遍历算法作为一种基础而重要的算法,在许多领域都有着不可或缺的应用,它为解决各种复杂的问题提供了有效的手段和思路。随着计算机科学的不断发展,二叉树遍历算法也在不断地被优化和扩展,以适应新的应用场景和需求。
32 0