2016中国高校计算机大赛——大数据挑战赛季军:Heal the World团队

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 2016中国高校计算机大赛大数据挑战赛上,Heal the World团队对阿里音乐流行趋势预测展示了自己的比赛成果。主要从问题分析开始谈起,确定解题思路,重点分享了分类与预测,进行了五步分离,最后做了简要总结。擦亮眼睛快看看吧。

2016中国高校计算机大赛大数据挑战赛上,Heal the World团队对阿里音乐流行趋势预测展示了自己的比赛成果。主要从问题分析开始谈起,确定解题思路,重点分享了分类与预测,进行了五步分离,最后做了简要总结。擦亮眼睛快看看吧。

 

问题分析

此次比赛给出了1000位艺人在2015年3月1日至2015年8月30日之间的所有歌曲数据以及相关用户的行为。要求预测9、10月份的艺人所有歌曲的播放量。

840a867bd3bdb193738ed917a59f2fcf08400a7e

但是我们发现,预测的数值在一个比较短的时间以后都是一个常数。这启发我们直接利用一个常数作为预测。我们认为最后两个星期的水平最能反映9、10月份大致水平,所以选择最后两个星期均值作为基准。我们发现均值预测稍优于模型,所以抛弃用模型预测的思路。

 

解题思路

dca2a27b55de36e817f8cb7739f609d51ed7fcc5

显然尾部14天预测没有考虑播放量时间序列所体现的特点。所以我们将重点放在寻找播放量时间序列的特点,并根据这些特点给出不同的预测方案。

 

分类与预测

我们认为艺人播放量时间序列8月份的走势和状态,最能体现9、10月份的基本水平和走势。所以我们根据8月份时间序列体现特点,将艺人进行划分。

对于那些尾部存在明显趋势的艺人,将最后14天均值作为预测肯定不准确。所以我们按照8月份时间序列走势特点的强烈程度,一步步将艺人分离出来

7f7f8f61932f6f31cca065ddb32a9bc8a9e364e6

分离思路:对于十四均值基准分,我们能按照时间序列特点修改就修改,不能修改维持基准不变。

第一步分离

44ab3e726aaf084bd7abdb64d32702e1f19888a1

从图中可以看出:

1. 五月份的均值明显大于最后一个星期的均值;

2.最后一个星期的均值大于倒数第二个星期;

3.倒数第二个星期的均值大于倒数第三个星期。

我们将播放量预测数值降低以后,分数明显上升。这也是突破十四天均值分数瓶颈的第一步。

a4b0a6338606fe945bcb082986fe94e82108f1f3

图中可以看出:

1. 七月,八月最大值出现在0821-0830;

2.最大值明显大于0721-0821区间的均值;

3.最大值出现到0830之间均值大于0701-0821区间的均值;

4.最后一个值明显大于0701-0821区间的均值比。

0e7efdfe3a294dc72dbad7779ea72f325174d103

8个周内,每周总有一个天是最大值。将出现最大值的那一天拉高,其它时间拉低。最后两个周这个星期的均值具有周期趋势,最后两个周的中位数不具周期趋势。

这三类艺人在总的艺人里面大概占200个人左右。将这三类艺人的预测修改以后,分值上升5000分左右。对分值上升贡献最大的类。

第二步分离

考虑到如果在我们取基准分的最后14天里出现一些异常高的点,这会将我们的预测数值抬高,影响预测精度。将预测数值恢复到一个正常的水平,我们还有提高分数的空间。

8a1b4775c0ace768a5e8bbcc2baf9db153497ee2

我们将异常分为三类:

1.       第一类异常:最后一个星期最大值明显大于最后一个星期中位数,同时最后一个星期最大值明显大于0803至0817的均值;

2.       第二类异常:倒数第二个星期最大值明显大于倒数第二个星期中位数,同时倒数第二个星期最大值明显大于0803至0817的均值;

3.       第三类异常:前两种异常同时出现。

第三步分离

暑假中呈现的状态是暑假导致的,与暑假之前的状态存在明显差异。暑假一旦结束,时间序列就进入出另外的一种状态。

90178eaadfbc55ff2fbcb4d4b0598dec67dc520b

0718-0830之间均值与0517-0717之间均值存在明显差异,如果暑假尾部出现下降趋势,就逐渐下降,如果没有明显趋势,就用最后期限均值×0.9×0.95等给出下降数。

第四步分离

如果时间序列一种趋势存在比较长的时间,那么我们认为在9、10月份还会存在这种趋势。

上升趋势有三类:

1. 第一类上升:六个月每月均值都比前一个月数值大,六个月持续上升;

2. 第二类上升:最后三个月每月均值都比前一个月数值大,三个月明显上升;

3. 第三类上升:最后三个星期每星期均值都比前一个月数值大,最后三个星期明显上升。

对此,我们采取了相应的措施:

第一类:最后一个星期均值,最后一个月中位数×(1+六个月平均增长率);

第二类:最后一个星期的均值,最后一个月中位数×(1.1);

第三类:最后一个星期的均值,最后一个星期的均值×(1.05)。

第五步分离

将前面那些尾部特点最明显的艺人去除以后,还剩下大概500个艺人。这500个艺人表现出的尾部特征并不明显,所以我们按照尾部两个星期的状况分成三类,然后给出预测方案。

1.第一类:最后两天均值明显大于最后一个星期均值;

2.第二类:最后两天与最后一个星期均值无明显差异;

3.第三类:最后两天明显小于最后一个星期均值;

预测方案如下:

第一类:最后一个星期的1.05倍,最后一个星期的1.05×1.05倍;

第二类:最后一个星期的数值;

第三类:最后两个星期的数值。

 

总结

根据有限的数据来预测60天正常的数据,我们直接从模型时间序列所表现出的特点来给出预测结果,避免了全是常数的尴尬,。只要准则和特征选取的好,就能将艺人分开得出不同的预测,用简单的SQL语句就能实现。

  • 模型只是一种工具,在数据挖掘过程中,我们应该花很多的时间在揣摩业务数据的特点和实际含义。
  • 模型只是一种工具,真正的数据处理者应该花很多的时间在揣摩业务数据的特点和实际含义。

参加天池大赛更像是在黑暗中不断的摸索。没人告诉你什么样的方法才是最好的,什么样的方法才能击败你的对手。必须不断找到新的方法,突破瓶颈。对那些挫折你必须保持耐心,你只能揣着比赛过程中的小小惊喜,跌跌撞撞地迎来光明的那一刻。多一些等待,总会有收获意外惊喜的那一天。

 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 算法 数据挖掘
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
本文介绍了2023年中国高校大数据挑战赛赛题B的Python实现方法,该赛题涉及DNA存储技术中的序列聚类与比对问题,包括错误率分析、序列聚类、拷贝数分布图的绘制以及比对模型的开发。
270 2
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
|
7月前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
|
机器学习/深度学习 算法 大数据
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A:基于计算机视觉的坑洼道路检测和识别 python 代码解析
本文提供了2023年MathorCup高校数学建模挑战赛大数据竞赛赛道A的解决方案,涉及基于计算机视觉的坑洼道路检测和识别任务,包括数据预处理、特征提取、模型建立、训练与评估等步骤的Python代码解析。
276 44
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A:基于计算机视觉的坑洼道路检测和识别 python 代码解析
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
285 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题二建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现,包括数据预处理、特征工程、模型训练以及预测结果的输出,旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。
229 2
|
2月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
78 4
|
2月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
172 3
|
2月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
|
3月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
97 1
|
4月前
|
存储 机器学习/深度学习 人工智能
数据与生命的对话:当大数据遇上生物信息学
数据与生命的对话:当大数据遇上生物信息学
159 17

热门文章

最新文章