阿里音乐流行趋势预测—亚军答辩(二)|学习笔记

简介: 快速学习阿里音乐流行趋势预测—亚军答辩(二)

开发者学堂课程【天池大赛算法教程及获奖选手答辩 阿里音乐流行趋势预测—亚军答辩(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/389/detail/4994


阿里音乐流行趋势预测—亚军答辩(二)


2. 子序列模式匹配法

截取歌手的待匹配子序列

这类歌手的日播放量趋势与其他歌手相差很大,对他们的预测和对其他歌手的预测,方法可能是不一样。因此针对这一类歌手,我们选用了子序列模式匹配法,来进行预测。

方法的思想是通过对其他歌手样本数据中曾经出现过的类似曲线的学习,计算出预测歌手9~10月份播放量,回落到正常水平的日播放量。

具体分为三步,首先选择待测歌手最后15天日播放量的变化率序列从8月16~8月30开始匹配子序列。然后与其他歌手的历史数据进行比对,找出其他歌手历史数据中找出与这个子序列最匹配的五个子序列。

1.求最佳匹配子序列

子序列最佳匹配的示意图

红色表示的是待匹配的子序列,下面就是找到了与待匹配的子序列最匹配的子序列。

2.确定预测值

最后就可以确定预测值,从选择五个最佳优质匹配列当中,我们选取后续变化比较平稳的子序列,作为计算预测值的一个依据,根据三个日变化率子序列的均值,计算出待预测歌手的9~10月份的日播放量趋势。发现歌手的日播放量回落都是有一个过程的,不是突然而然,9~10月份成一个阶梯式的回落过程。

3.附加处理

最后为了提高分数,我们对部分歌手也做了附加处理。

一共分为了两类,第一类是对月播放量最高的歌手的处理,第二类是针对9~10月份有发布新专辑的歌手的处理。

如图为歌手日播放量均值的示例图,从图中可以清晰的看到,第一名歌手的播放量是其他歌手的若干倍以上,由大赛提供的预测公式可以知道,对日播放量越大的歌手预测的准确程度对分数的影响越大。

因此认为提高第一名歌手预测的准确度,是非常重要的。所以在已有预测值的基础上,用二分法对第一年歌手的预测值进行了多次调整。

通过对歌手的样本集发现,歌手发布新专辑,播放量会呈现急剧的增长。因此我们针对9~10月份有新专辑发布的歌手,据专辑发布的时间,将9~10月份进行分段。根据专辑中的歌曲数量,对发布时间后的预测值略作提升,用这个值作为我们最后的预测值。

 

二、算法处理

就是从样本集当中提取歌手的日 周月播放量序列与日变化率序列,根据序列计算歌手的日编码,周编码,月编码。根据这些编码将预测值进行分类,分为四个基本类别。

根据每一个类别选取最优预测方法。 同时我们对月播放量排名最高的歌手做了些特殊的处理,同时对9~10月份有新专辑发布的歌手做了一些特殊的处理。

最终形成我们所提交的结果集。

 

三、曾经的尝试

以上我们的总体思路的算法都不是一朝一夕形成的,都是通过一次一次的尝试。

比如在第一赛季,尝试使用过一些常见时间序列模型进行预测。当时使用这个模型的时候,效果不太理想,经过分析有以下两个原因。

1. 预测的日期数较常会出现过拟合问题

2. Arima 等时间序列模型的拟合依据于比赛的评判函数不同

尽管这些标准时间序列模型不适合此次比赛,认为他将时间序列进行分解的这个思路是可以借鉴的。在传统的方法之后,还有周期性的叠加这一项。在样本集当中,我们也发现部分歌手的日播放量与时间序列成明显的周期性。

第二赛季,我们对所有歌手的日播放量进行过一个周期性的判断与提取,并在长期判断的基础上进行叠加。

可是叠加之后的分数下降了两百多分,我们分析后出现这种情况的原因主要有两个。

1. 待预测的时间范围比较长,在样本集中,这种周期性未必会一直延续下去。

2. 趋势和预测的偏差比较大的话,叠加的效果会适得其反。

所以我们预测后,没有对周期性进行叠加。

随机干扰

周期性和趋势是时间序列中确定的因素,随机干扰是时间序列中不确定的因素,它对长时间段的预测是比较小的,而且我们没有很好的办法对随机干扰进行提取。

所以在预测过程中,忽略掉随机干扰这一项。此外,我们尝试过用户对歌曲的收藏量,下载量与播放量的相关数据 进行研究,他们呈现出很明显的正相关性,但是我们也没有很好的办法对他们进行进一步的处理,所以没有在这个思路上继续进行下去。

 

四、建议

截至目前为止,阿里巴巴已经举办过很多这样的大数据的比赛 在选手主要来自高校的学生和老师。因此,可以考虑用高校的实际背景来设计赛题,用高校学生所熟悉的范围,更能激发他们的参赛热情,推动大数据在高校方面的研究与应用。

相关文章
|
机器学习/深度学习 算法 数据挖掘
阿里音乐流行趋势预测—冠军答辩(一)|学习笔记
快速学习阿里音乐流行趋势预测—冠军答辩(一)
1153 0
|
算法 定位技术 C语言
【c语言】迷宫游戏
【c语言】迷宫游戏
403 0
|
6月前
|
存储 缓存 人工智能
腾讯新闻 item_search - 热榜数据接口对接全攻略:从入门到精通
腾讯新闻item_search热榜接口是获取其全领域(时政、科技、财经等)实时热点数据的核心工具,支持多维度筛选与分页查询,可高效获取标题、热度指数、传播数据及关联话题,广泛应用于舆情监测、资讯聚合与热点分析,助力开发者精准掌握平台热点动态。
|
3月前
|
人工智能 JavaScript Linux
别再花钱买云服务器了!OpenClaw 本地部署保姆级教程,10分钟拥有私人AI助理(附阿里云简单部署流程)
2026年,AI私人助理已从“高端配置”变成“日常刚需”,而OpenClaw(原Clawdbot,曾用名Moltbot)作为开源界的“黑马”,凭借自然语言驱动、多技能扩展、零门槛上手的核心优势,成为无数人打造私人AI助理的首选——它无需复杂代码基础,无需高价云服务器,只要你有一台普通电脑(Windows、Mac、Linux均可),跟着步骤操作,10分钟就能完成本地部署,同时也支持阿里云简单部署,兼顾“零成本本地使用”与“云端稳定托管”双重需求,彻底打破“AI助理必花钱”的误区。
5435 5
|
机器学习/深度学习 存储 安全
4G手机内存玩转Qwen2.5-Omni?MNN全面支持Qwen2.5-Omni与Qwen3!
随着移动端算力、存储能力的提升,在端侧部署大模型已成为趋势。本地化运行可消除网络延迟实现毫秒响应,降低云端算力成本,同时避免数据上传保障隐私安全。
2779 1
|
人工智能 物联网 测试技术
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
4685 17
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
|
机器学习/深度学习
YOLOv10优改系列一:YOLOv10融合C2f_Ghost网络,让YoloV10实现性能的均衡
本文介绍了YOLOv10的性能优化,通过融合Ghost模块和C2f结构,实现了网络性能的均衡。GhostNet通过GhostModule和GhostBottleNeck减少参数量,适用于资源有限的场景。YOLOv10-C2f_Ghost在减少参数和计算量的同时,保持了与原始网络相当或更好的性能。文章还提供了详细的代码修改步骤和可能遇到的问题解决方案。
2339 1
YOLOv10优改系列一:YOLOv10融合C2f_Ghost网络,让YoloV10实现性能的均衡
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习的未来:从模型架构到应用场景
在信息技术飞速发展的时代,深度学习作为人工智能的核心领域正不断推动科技前沿。本文将探讨深度学习的最新发展趋势,包括模型架构的创新和实际应用场景的拓展。同时,我们将分析当前面临的挑战以及未来可能的发展方向,旨在为读者提供一个全面的视角,了解这一充满潜力的技术领域。
717 27
|
搜索推荐 Python Windows
python中对于wordcloud词云生成报错提示的解决
通过搜索印象错误信息:ValueError:Only supported for TrueType fonts,几乎大部分人给出的选项都是让你指定TrueType fonts路径,或者新下载TTF字体,并重新指定,但是这两种解决方案并无法解决报错。 在真正解决问题之前,先来介绍几个与之相关的知识点,对于有经验的人,这样的知识点完全是“小菜”,但是对于初学者,这种知识点就是因为缺少相关实践而无从下手,无从搜索引擎。
|
搜索推荐 开发者 SEO
CSDN 大规模抓取 GitHub 上的项目到 GitCode,伪造开发者主页引公愤
后续影响和发展方向 GitCode是CSDN开发的一个代码托管平台,为了快速获得搜索引擎流量,CSDN采用了惯用的手段,直接搬运大量内容进行填充。接下来,他们很可能会通过SEO农场来污染搜索引擎,以获得更多的流量。这种操作不仅对开发者极不尊重,也对整个互联网环境造成了严重的污染。 写在最后 GitCode 已经出来有挺长时间了,期间没闹出过什么问题。近期,不知道 GitCode 内部的哪位领导脑子被驴踢了,做出搬运 GitHub 的仓库来丰富自己平台内容的决定。 这种无视开发者权益、恶意搬运项目的行为,必将受到开发者社区的强烈谴责,尊重开发者的劳动成果,维护开源社区的良好氛围。开发者们也应团结
1057 1