2016中国高校计算机大赛——大数据挑战赛季军:Heal the World团队

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 2016中国高校计算机大赛大数据挑战赛上,Heal the World团队对阿里音乐流行趋势预测展示了自己的比赛成果。主要从问题分析开始谈起,确定解题思路,重点分享了分类与预测,进行了五步分离,最后做了简要总结。擦亮眼睛快看看吧。

2016中国高校计算机大赛大数据挑战赛上,Heal the World团队对阿里音乐流行趋势预测展示了自己的比赛成果。主要从问题分析开始谈起,确定解题思路,重点分享了分类与预测,进行了五步分离,最后做了简要总结。擦亮眼睛快看看吧。

 

问题分析

此次比赛给出了1000位艺人在2015年3月1日至2015年8月30日之间的所有歌曲数据以及相关用户的行为。要求预测9、10月份的艺人所有歌曲的播放量。

840a867bd3bdb193738ed917a59f2fcf08400a7e

但是我们发现,预测的数值在一个比较短的时间以后都是一个常数。这启发我们直接利用一个常数作为预测。我们认为最后两个星期的水平最能反映9、10月份大致水平,所以选择最后两个星期均值作为基准。我们发现均值预测稍优于模型,所以抛弃用模型预测的思路。

 

解题思路

dca2a27b55de36e817f8cb7739f609d51ed7fcc5

显然尾部14天预测没有考虑播放量时间序列所体现的特点。所以我们将重点放在寻找播放量时间序列的特点,并根据这些特点给出不同的预测方案。

 

分类与预测

我们认为艺人播放量时间序列8月份的走势和状态,最能体现9、10月份的基本水平和走势。所以我们根据8月份时间序列体现特点,将艺人进行划分。

对于那些尾部存在明显趋势的艺人,将最后14天均值作为预测肯定不准确。所以我们按照8月份时间序列走势特点的强烈程度,一步步将艺人分离出来

7f7f8f61932f6f31cca065ddb32a9bc8a9e364e6

分离思路:对于十四均值基准分,我们能按照时间序列特点修改就修改,不能修改维持基准不变。

第一步分离

44ab3e726aaf084bd7abdb64d32702e1f19888a1

从图中可以看出:

1. 五月份的均值明显大于最后一个星期的均值;

2.最后一个星期的均值大于倒数第二个星期;

3.倒数第二个星期的均值大于倒数第三个星期。

我们将播放量预测数值降低以后,分数明显上升。这也是突破十四天均值分数瓶颈的第一步。

a4b0a6338606fe945bcb082986fe94e82108f1f3

图中可以看出:

1. 七月,八月最大值出现在0821-0830;

2.最大值明显大于0721-0821区间的均值;

3.最大值出现到0830之间均值大于0701-0821区间的均值;

4.最后一个值明显大于0701-0821区间的均值比。

0e7efdfe3a294dc72dbad7779ea72f325174d103

8个周内,每周总有一个天是最大值。将出现最大值的那一天拉高,其它时间拉低。最后两个周这个星期的均值具有周期趋势,最后两个周的中位数不具周期趋势。

这三类艺人在总的艺人里面大概占200个人左右。将这三类艺人的预测修改以后,分值上升5000分左右。对分值上升贡献最大的类。

第二步分离

考虑到如果在我们取基准分的最后14天里出现一些异常高的点,这会将我们的预测数值抬高,影响预测精度。将预测数值恢复到一个正常的水平,我们还有提高分数的空间。

8a1b4775c0ace768a5e8bbcc2baf9db153497ee2

我们将异常分为三类:

1.       第一类异常:最后一个星期最大值明显大于最后一个星期中位数,同时最后一个星期最大值明显大于0803至0817的均值;

2.       第二类异常:倒数第二个星期最大值明显大于倒数第二个星期中位数,同时倒数第二个星期最大值明显大于0803至0817的均值;

3.       第三类异常:前两种异常同时出现。

第三步分离

暑假中呈现的状态是暑假导致的,与暑假之前的状态存在明显差异。暑假一旦结束,时间序列就进入出另外的一种状态。

90178eaadfbc55ff2fbcb4d4b0598dec67dc520b

0718-0830之间均值与0517-0717之间均值存在明显差异,如果暑假尾部出现下降趋势,就逐渐下降,如果没有明显趋势,就用最后期限均值×0.9×0.95等给出下降数。

第四步分离

如果时间序列一种趋势存在比较长的时间,那么我们认为在9、10月份还会存在这种趋势。

上升趋势有三类:

1. 第一类上升:六个月每月均值都比前一个月数值大,六个月持续上升;

2. 第二类上升:最后三个月每月均值都比前一个月数值大,三个月明显上升;

3. 第三类上升:最后三个星期每星期均值都比前一个月数值大,最后三个星期明显上升。

对此,我们采取了相应的措施:

第一类:最后一个星期均值,最后一个月中位数×(1+六个月平均增长率);

第二类:最后一个星期的均值,最后一个月中位数×(1.1);

第三类:最后一个星期的均值,最后一个星期的均值×(1.05)。

第五步分离

将前面那些尾部特点最明显的艺人去除以后,还剩下大概500个艺人。这500个艺人表现出的尾部特征并不明显,所以我们按照尾部两个星期的状况分成三类,然后给出预测方案。

1.第一类:最后两天均值明显大于最后一个星期均值;

2.第二类:最后两天与最后一个星期均值无明显差异;

3.第三类:最后两天明显小于最后一个星期均值;

预测方案如下:

第一类:最后一个星期的1.05倍,最后一个星期的1.05×1.05倍;

第二类:最后一个星期的数值;

第三类:最后两个星期的数值。

 

总结

根据有限的数据来预测60天正常的数据,我们直接从模型时间序列所表现出的特点来给出预测结果,避免了全是常数的尴尬,。只要准则和特征选取的好,就能将艺人分开得出不同的预测,用简单的SQL语句就能实现。

  • 模型只是一种工具,在数据挖掘过程中,我们应该花很多的时间在揣摩业务数据的特点和实际含义。
  • 模型只是一种工具,真正的数据处理者应该花很多的时间在揣摩业务数据的特点和实际含义。

参加天池大赛更像是在黑暗中不断的摸索。没人告诉你什么样的方法才是最好的,什么样的方法才能击败你的对手。必须不断找到新的方法,突破瓶颈。对那些挫折你必须保持耐心,你只能揣着比赛过程中的小小惊喜,跌跌撞撞地迎来光明的那一刻。多一些等待,总会有收获意外惊喜的那一天。

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
存储 算法 数据挖掘
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
本文介绍了2023年中国高校大数据挑战赛赛题B的Python实现方法,该赛题涉及DNA存储技术中的序列聚类与比对问题,包括错误率分析、序列聚类、拷贝数分布图的绘制以及比对模型的开发。
105 2
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
|
4月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
99 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
4月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题二建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现,包括数据预处理、特征工程、模型训练以及预测结果的输出,旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。
81 2
|
4月前
|
机器学习/深度学习 算法 大数据
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A:基于计算机视觉的坑洼道路检测和识别 python 代码解析
本文提供了2023年MathorCup高校数学建模挑战赛大数据竞赛赛道A的解决方案,涉及基于计算机视觉的坑洼道路检测和识别任务,包括数据预处理、特征提取、模型建立、训练与评估等步骤的Python代码解析。
92 0
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A:基于计算机视觉的坑洼道路检测和识别 python 代码解析
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
348 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
53 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
90 1
|
29天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
69 4
|
1月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4