阿里音乐流行趋势预测—亚军答辩(一)|学习笔记

简介: 快速学习阿里音乐流行趋势预测—亚军答辩(一)

开发者学堂课程【天池大赛算法教程及获奖选手答辩 阿里音乐流行趋势预测—亚军答辩(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/389/detail/4994


阿里音乐流行趋势预测—亚军答辩(一)


目录:

一、 总体思路

二、 算法处理

三、 曾经的尝试

四、 建议

 

一、 总体思路

1.数据预处理

2.分类

3.预测

4.方法选择

5.预处理

具体解题思路是借鉴的标准的时间序列的分解思想,将我们的日播放量长期趋势,中期,以及随机干扰三项,但是在最终的那个算法当中,只对长期趋势进行预测,算法分为数据预处理,分类,预测,方法选择,预处理五个环节 。

以歌手为单位对数据集进行预处理,依据编码,将所有选手进行编码,将所有的歌手进行分类,分为24个基本的类别,然后针对每一个类别选择是他的最优预测方法。最后为了提高分数,我们也对部分歌手做了附加处理。

预处理这里我们使用的是数加平台,在数加平台中执行SQL语句去完成的数据处理的结果,包括从样本集当中提取出的每个歌手的日播放量序列,周播放量均值序列,月播放量均值序列以及日变化率序列。

1. 日播放量序列

2. 周播放量均值序列

3. 月播放量均值序列

4. 日变化率序列

日变化率序列我们将用于最后的使用。日变化率序列我们将用于选择每个类别的最优预测方法。在此基础上,我们对歌手进行编码,编码包括月编码,周编码,我们进行编码的主要目的是大致判断歌手日周月播放量的一个变化趋势。

下面以月编码为例,编码是由基本趋势和增量趋势两部分组成的,基本编码增量趋势,若当月均值高于上月,则对应的那一位为1,否则为零 例如我们可以看到4月份的均值大于三月均值,那另一位对应的就是1,5月均值小于4月均值,对应值为0, 增量趋势其实代表一个变化幅度的大小,它的变化规则是,若月均值高于上月均值,当月均值除以上月均值取整,否则上月均值除以当月均值的结果取整。

例如,最后一位为无表示的是8月的均值与七月均值之间相差的是五倍以上。那么这个相差到底是增长了,还是下降了,我们从前面的基本趋势之间可以看到,综合基本趋势和增量趋势两个部分,我们可以知道8月均值是在7月均值基础上呈现一个大幅度的增长。

日编码和周编码都可以使用这个方法得到,那么建立编码之后 我们就可以建立分类规则。

我们建立分类,首先的是将播放量整体基本相似的歌手归为一类,我们将基本趋势后两个月连续上升的增量趋势最后一个月变化平稳的歌手分为一类,也就是第一类,将增量趋势最后一个月变化幅度较大的歌手分为一类。

在最初的时候,我们只分类了八个类别。在比赛过程中,我们对类别进行了不断的验证,序列化,变成了24个基本类别。

分好类之后,要把每个类别找到他们的最优预测值方法。我们寻找最优预测值的方法有两种,一种是类别最优值选择法与子序列模式匹配法。

1.类别最优值选择法

这个比赛要求我们对歌手60天的播放量进行一个预测,很难进行精确的预测,应该尽可能贴近9~10月份日播放量的均值水平。因此 我们选择最后的均值法以及运用百分位数进行预测的方法作为待选方法,组成候选预测方法集合。有了待选方法集合之后,针对每一类别的歌手选择最优预测方法。我们使用3~7月份的数据作为训练集,8月份的数据为测试集,便利待选预测方法集合,用当前选定的待选预测方法,得到8月份的预测值。

根据大赛给我们的评判公式,对8月份的预测值进行一个评分,最高时得到的便是我们对每一个歌手得到的最优预选方法。我们使用的最优预测选择方法,就可以计算这一类歌手9-10月份的日播放量。

选择最优预测值的另一种方法是,子序列模式匹配法。在第二赛季第二批数据集当中,我们通过对歌手的日编码周编码的增量模式发现,存在40多个歌手出现8月中下旬的日播放量突然成倍增长的情况。

相关文章
|
数据采集 机器学习/深度学习 算法
阿里音乐流行趋势预测—冠军答辩(二)|学习笔记
快速学习阿里音乐流行趋势预测—冠军答辩(二)
564 0
|
机器学习/深度学习 算法 数据挖掘
阿里音乐流行趋势预测—冠军答辩(一)|学习笔记
快速学习阿里音乐流行趋势预测—冠军答辩(一)
1082 0
|
机器学习/深度学习 JSON 监控
智能定价模型:借助API实时更新商品价格信息
在电子商务的迅猛发展中,价格战成为商家间常见的竞争方式。然而,一成不变的价格策略无法满足市场的即时需求和消费者的多变偏好。因此,智能定价(也称为动态定价)成为了电商平台提升市场竞争力的关键工具。智能定价模型通过实时监控市场数据和消费者行为,自动调整商品价格以最大化收益或实现其他商业目标。本文将深入探讨如何利用API技术实现智能定价,并提供一个Python代码示例来指导读者进行实时价格更新。
|
SQL 存储 分布式数据库
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
859 0
|
8月前
|
人工智能 弹性计算 运维
阿里云 MCP Server 开箱即用!
本文介绍了如何通过alibaba-cloud-ops-mcp-server和MCP(Model Context Protocol)实现AI助手对阿里云资源的复杂任务操作。内容涵盖背景、准备步骤(如使用VS Code与Cline配置MCP Server)、示例场景(包括创建实例、监控实例、运行命令、启停实例等),以及支持的工具列表和参考文档。借助这些工具,用户可通过自然语言与AI助手交互,完成ECS实例管理、VPC查询、云监控数据获取等运维任务,实现高效“掌上运维”。
|
8月前
|
人工智能 JSON 安全
API 即 MCP|Higress 发布 MCP Marketplace,加速存量 API 跨入 MCP 时代
Higress 发布 MCP Marketplace,加速存量 API 跨入 MCP 时代。
|
数据采集 自然语言处理 数据可视化
优秀python系统案例】基于python Flask的电影票房数据爬取与可视化系统的设计与实现
本文介绍了一个基于Python Flask框架开发的电影票房数据爬取与可视化系统,该系统利用网络爬虫技术从豆瓣电影网站抓取数据,通过Python进行数据处理和分析,并采用ECharts等库实现数据的可视化展示,为电影行业从业者提供决策支持。
1619 2
优秀python系统案例】基于python Flask的电影票房数据爬取与可视化系统的设计与实现
|
存储 机器学习/深度学习 编译器
C语言基础简单教程
C语言基础简单教程
|
算法 编译器
数据结构与算法⑰(第五章_八大排序)(完整代码+动图+详解+对比)(中)
数据结构与算法⑰(第五章_八大排序)(完整代码+动图+详解+对比)
131 4
|
SQL HIVE
Hive【基础知识 04】【Hive 属性配置的三种方式及配置的优先级说明】
【4月更文挑战第7天】Hive【基础知识 04】【Hive 属性配置的三种方式及配置的优先级说明】
550 0