2016中国高校计算机大赛——大数据挑战赛极客奖:data_coders团队

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 2016中国高校计算机大赛大数据挑战赛上,data_coders团队对阿里音乐流行趋势预测进行了自己的阐述理解。首先对赛题进行了分析,确定解题思路,重点对算法进行了说明,包括类别分析、特征提取和算法模型,最后做了简要的总结。一起来欣赏下。

2016中国高校计算机大赛大数据挑战赛上,data_coders团队对阿里音乐流行趋势预测进行了自己的阐述理解。首先对赛题进行了分析,确定解题思路,重点对算法进行了说明,包括类别分析、特征提取和算法模型,最后做了简要的总结。一起来欣赏下。

 

问题分析

已知20150301-20150830的用户行为和歌手歌曲历史记录,预测9月1日至10月30日1000位歌手每天的歌曲点播量?

对用户来说,用户涉及到的歌手进行点播量预测累加,但是单个用户点播行为随机性大,误差积累,模型复杂,直接Pass掉;对歌曲来说,每一首歌曲进行预测累加,但是单首歌曲点播量随机性大,误差积累,所以也被抛弃了;因此,我们从歌手的角度出发,直接预测,统计183天每一天的歌曲点播量,从中构建模型预测,抽样用户越多,歌手歌曲点播量规律越明显。

求解思路

  • 时序模型预测:arima模型需要对每个歌手训练三个参数,参数多且需要手动调参,不适合长时间序列的预测;
  • 回归模型预测:采用gbdt、rf机器学习算法,需要构建特征,但特征不充足,效果不好;
  • 中位数:选用最后十天点播量中位数,不受奇异值影响,反映数据集中趋势,效果让我们惊喜;

虽然能够从用户涉及的歌手找到规律,但仅仅靠这些规律去构建模型,预测接下来两个月每一天的点播量,还是有点不切实际的,只要在两个月中歌手有突发因素发生,由于突变因素导致的点播量猛增,模型是没有办法预测的,所以启发我们构建歌手画像+歌手分类+函数拟合的思路。

 

算法介绍

数据处理

  • Language:1:国语;2:日语;3:韩语;4:英语;11:粤语;12:闽南语;14:法语;100:纯音乐。
  •  Gender:1:男;2:女;3:团体。
  • 歌手画像:性别,语言,专辑发行时间,专辑包含的歌曲数。
  • 根据歌手画像从虾米官网爬取歌手姓名。
  • 爬取歌手在20150301-20151030期间发行的专辑。
  • 爬取20150301-20151030期间发行专辑的详细信息:专辑发行时间,专辑的歌曲数,专辑评论数,专辑评分,专辑乐评时间及乐评内容。

查找20150301-20151030期间的综艺节目有哪些信息涉及到需要预测的歌手(譬如:中国好声音,蒙面歌王,无限挑战等);查找20150301-20151030期间的热门电影,电视剧主题曲有没有需要预测的歌手演唱;查找20150301-20151030期间有哪些国外歌手在中国开过演唱会;绘制每个歌手183天的趋势图。

类别分析

48fa8e4cfe4910873b46ffc8c5765d696b05f074

2412245cb1af657126ec275212b8b2f1961d03b4

将歌手分为两大类:

  • 平稳型歌手:

A.上升型歌手;B.下降型歌手;C.稳定型歌手;D.周期型歌手。

  • 突变型歌手:

E.发行新专辑;F.参加综艺节目;G.开演唱会;H.中国好声音有学员翻唱其歌曲;                                                                                                     I.演唱热门电视剧或者电影主题曲等。

特征提取

突变歌手特征:

1. 一般来说,突变型歌手的点播量在突变因素发生后呈现出长尾效应的特征,符合互联网短平快的特点;

2. 突变因素发生后的5天内点播量会达到最大峰值,突变因素效应持续大概15—30天不等,之后达到稳定值,稳定值停留在峰值和突变因素发生前10天点播量中位数的中间位置附近。

此外,我们发现不少歌手点播量呈现周期性规律;节假日点播量一般会稍微降低;每日用户数周期性规律明显,呈现总体上升趋势。

算法模型

  • A、B、C平稳型歌手:(线性拟合)

4b26a4b3aa3e412cbb6040c74ff493827a9d1143

  • 周期型歌手D:(规则+中位数)

d4275c7c396001dc604ad0908b05876c9f763df0

6427a8132e797538ba77b1aff660d2dccdcacfb5

  • E、F、G、H、I突变型歌手:(高斯函数拟合)

210d97af7d7d1dc411f3a227b16eea147079cb4f

比如对于突变因素为发行新专辑的歌手,特征主要包括专辑发行时间,专辑的歌曲数,专辑评论数,专辑评分,专辑乐评时间及乐评情感得分等。

 

收获与成长

通过这次实践,我们收获颇多,认为应该以业务为本、数据为源、模型为武器,将主要精力从算法转移到对业务的深刻理解和分析中,呈现出来的模型才有可视用性和泛化性。

同时,我们也感谢阿里提供的真实的数据、优秀的大数据平台和良好的技术交流环境。我们也希望平台今后可以支持Python语言,可以更好地支持数据可视化。

 

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
存储 算法 数据挖掘
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
本文介绍了2023年中国高校大数据挑战赛赛题B的Python实现方法,该赛题涉及DNA存储技术中的序列聚类与比对问题,包括错误率分析、序列聚类、拷贝数分布图的绘制以及比对模型的开发。
109 2
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
|
5月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
83 0
|
5月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
102 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
5月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题二建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现,包括数据预处理、特征工程、模型训练以及预测结果的输出,旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。
84 2
|
5月前
|
机器学习/深度学习 算法 大数据
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A:基于计算机视觉的坑洼道路检测和识别 python 代码解析
本文提供了2023年MathorCup高校数学建模挑战赛大数据竞赛赛道A的解决方案,涉及基于计算机视觉的坑洼道路检测和识别任务,包括数据预处理、特征提取、模型建立、训练与评估等步骤的Python代码解析。
95 0
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A:基于计算机视觉的坑洼道路检测和识别 python 代码解析
|
3月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
469 7
|
2月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
61 2
|
4天前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
2月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
104 1