天翼杯大数据算法应用大赛

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 代码:https://github.com/jinhang/TianYiBeiBigDataMatch 一、赛题 根据前7周用户访问十个视频网站数据及其他上网行为数据,预测用户第8周访问十个视频网站的访问量——选手提交每个userid第八周每天分别访问十个视频网站的次数。

代码:https://github.com/jinhang/TianYiBeiBigDataMatch

一、赛题 根据前7周用户访问十个视频网站数据及其他上网行为数据,预测用户第8周访问十个视频网站的访问量——选手提交每个userid第八周每天分别访问十个视频网站的次数。

二、赛题数据格式说明 第二赛段赛题数据(PaaS平台目录名:game-data)包括两个部分: 1. 十个视频网站数据,PaaS平台目录名:video-visit-data; 2. 其他上网行为数据,PaaS平台目录名:user-behavior-data。 请注意: Ø 以上数据均以0.5小时为粒度统计,即:每0.5小时对用户访问量进行一次汇总; Ø 本次赛题共抽取了299933个用户的数据; Ø 赛题数据总大小为25.38G,其中十个视频网站数据大小为0.38G,其他上网行为数据大小为25G。

2.1 十个视频网站数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示: C:UsersDellDesktop�.jpg 2.2 其他上网行为标签数据格式说明 C:UsersDellDesktop�.jpg 样例如下图所示: C:UsersDellDesktop�.jpg

三、结果数据格式说明 选手需要将预测结果存入txt文本文件中,并采用如下格式: C:UsersDellDesktop�.jpg 说明: 1、user_id与预测结果之间用tab分隔符分割; 2、d1_v1表示第八周第一天视频网站1的访问量,访问量必须为非负整数。 3、预测结果按照日期排列由近到远,同一个日期内按照赛题给出的视频网站顺序排列,预测数据之间用逗号分割。 4、上传格式必须为txt格式,不能添加header。 样例如下图所示: C:UsersDellDesktop�.jpg 评分标准 大赛采用准确率和召回率作为排行榜的评分依据,排行榜评分由二者运算后的F1值得出,详细评分说明如下。 (1) 准确率:用于评估预测的准确度。

采用余弦相似度判断每个用户在第八周每天对十个视频网站的访问量的准确度,并除以选手预测的用户数量。 C:UsersDellDesktop�.jpg

注: N为选手预测的有访问记录的用户数量。 Similarity为每个被预测用户对10个网站7天的访问量预估的余弦相似度。若被预测的用户并未在第八周出现,则默认真实值为该用户对所有视频网站的访问量为0。 UserCount为选手预测的用户数量(包括被列出但对所有视频网站访问量为0的记录) 有访问记录,即至少存在对某一视频网站某天的访问量不为0的记录。 (2) 召回率:用于评估预测覆盖的用户数量。

C:UsersDellDesktop8.jpg 注: (a)rUserCount:为真实有访问记录的用户数量 (b)hitUserCount:预测的有访问记录的用户列表与真实有访问记录的用户列表的交集的用户个数。 (c)有访问记录,即至少存在对某一视频网站某天的访问量不为0的记录。 (3) F1值:排名所用分数。

C:UsersDellDesktop9.jpg 大赛最终将以F1值由高到低进行排名。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 算法
大数据选举预测:算票的不只是选票,还有算法
大数据选举预测:算票的不只是选票,还有算法
129 0
|
3月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
3月前
|
存储 监控 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业生产运营监控与决策支持中的应用(228)
本文探讨了基于 Java 的大数据可视化技术在企业生产运营监控与决策支持中的关键应用。面对数据爆炸、信息孤岛和实时性不足等挑战,Java 通过高效数据采集、清洗与可视化引擎,助力企业构建实时监控与智能决策系统,显著提升运营效率与竞争力。
|
30天前
|
算法 搜索推荐 大数据
当“爆款书”遇上大数据:出版业的老路,正在被算法改写
当“爆款书”遇上大数据:出版业的老路,正在被算法改写
130 8
|
2月前
|
运维 监控 JavaScript
基于 Node.js 图结构的局域网设备拓扑分析算法在局域网内监控软件中的应用研究
本文探讨图结构在局域网监控系统中的应用,通过Node.js实现设备拓扑建模、路径分析与故障定位,提升网络可视化、可追溯性与运维效率,结合模拟实验验证其高效性与准确性。
227 3
|
2月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
2月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
2月前
|
数据采集 算法
TsingtaoAI摘得长三角算力算法创新大赛冠军
在2025年长三角(芜湖)算力算法创新应用大赛的颁奖典礼上,TsingtaoAI团队凭借“通用具身智能PoC实验底座研发及产业化”项目,摘得数据赛道冠军。这一赛事于9月23日在芜湖市隆重举行,由芜湖市人民政府主办,芜湖市数据资源管理局、市委人才局和市科技局承办。
85 0
|
3月前
|
算法 搜索推荐 大数据
大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”
大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”
121 5
|
2月前
|
机器学习/深度学习 算法 安全
小场景大市场:猫狗识别算法在宠物智能设备中的应用
将猫狗识别算法应用于宠物智能设备,是AIoT领域的重要垂直场景。本文从核心技术、应用场景、挑战与趋势四个方面,全面解析这一融合算法、硬件与用户体验的系统工程。

热门文章

最新文章

下一篇
oss云网关配置