回归树模型分析纪录片播放量影响因素|数据分享

简介: 回归树模型分析纪录片播放量影响因素|数据分享

原文链接:http://tecdat.cn/?p=26131 


纪录片能够真实、详尽地反映一个地区的风貌,展示经济发展和社会进步。2018年,纪录片发展迅猛,出现了几部大热作品,加之BBC纪录片造假的舆论导向,让人们对纪录片更加关注。本文所用的纪录片数据查看文末了解数据获取方式来自哔哩哔哩网站,是目前主流视频网站上最丰富、最接近的数据来源。

数字特征和文本特征相结合,分析影响播放量的因素。采用回归树模型分析自变量对播放量的影响。


纪录片播放量分布


视频播放量是检验视频质量和视频热度的一个直观媒介。内容质量高、话题性强的视频自然会引起广泛关注。对于没有与平台签约的UP主来说,通过视频创作激励计划和奖励机制(充值计划),播放量与他们的收入直接挂钩。探讨影响纪录片播放量的因素,有助于更好地理解如何提高纪录片视频的关注度,以及如何更好地创作出令人愉悦的自制微纪录片。

纪录片的播放量与它的内容主题有关,有些主题很受欢迎,有些则很小众。不同的人有不同的兴趣点,会体现在弹幕、金币、分享等指标上,所以不同类别下的纪录片分布也会有所不同。

为了便于观察,图中只显示了播放量低于7000的纪录片。从图中可以看出,四类纪录片的播放量分布存在明显差异,人文、历史类纪录片的播放量总体上高于其余三类。军事类和社会食品类纪录片的分布则比较接近。旅游类纪录片的分布比较接近,总的来说,四类纪录片的播放量差异很大,因此不能用同一个模型进行分析。有必要对参数进行区分,并对每个类别下的纪录片进行不同的分析。


纪录片高频词特点


以下是对各个纪实分类下的文本的词频特征的分析。哔哩哔哩网站上最相关的纪录片细分类别是社会和旅游类,该类别的纪录片文本的高频词比较生活化。下图是对该细分领域的纪录片视频文本进行细分过滤后得到的高频词的词频图。

图中显示了社会和旅游纪录片文本中的12个高频词。其中,"旅游 "以1118次排名第一,与 "旅游 "相关的 "旅游 "和 "旅游摄影 "分别排名第4和第6位。"食品 "以1111次排名第二,与 "食品 "相关的 "食品 "排名第11。"人文 "以607次排名第五,而与之相关的 "纪录片 "则排名第八。


点击标题查阅往期内容


PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像


01

02

03

04


此外,"中国"、"日本 "和 "世界 "的出现频率也很高。文字是由UP主编辑的,目的是让用户更好地理解视频内容,国家类高频词的出现表明,纪录片内容发生的国家是观众决定是否观看视频的重要决定。

词频分析显示了高频词在纪录片中的分布情况,但不能仅根据词频给出纪录片的选择建议。


播放量的影响因素分析


接下来,我们研究变量对播放量的影响。回归树模型被用来确定自变量对播放量的影响程度。

对回归树进行模拟,在RMSE折线图的拐点处确定最优的树深为7,叶子节点的最小样本数设为25,分支节点的最小数量设为50。

进行十折交叉验证,建立回归树,下图为回归树的模型结构。

在图中,观察叶子节点的框线图可以发现,大部分纪录片的播放量都很低,这些纪录片位于树状图的左侧,其判别变量是评论数和弹幕数。树状图的最右边的叶子节点划分了具有高播放量的纪录片,其判别变量是评论数和弹出窗口数,其次是相邻的左边叶子节点,其父节点有评论数、弹出窗口数和硬币数的分类变量。

因此,与播放次数密切相关的变量是弹幕数、评论数和金币数,它们对高播放次数的影响更大。从右侧的叶子节点可以看出,如果评论数、弹幕数和金币数越高,那么播放量也就越高。在建立回归树模型时,自变量的重要性依次为:评论数(44)、弹幕数(18)、金币数(17)、分享数(8)、粉丝数(6)、收藏数(6)和提交数(1)。

最重要的变量是观众与纪录片视频和UP主之间的互动程度,UP主在制作视频和选择能产生强烈互动的内容材料时,可以考虑到这一点。但是,这一点比较主观,没有量化的调整方案,也无法控制,无法确认所选的主题素材是否会带来高数量的评论和弹幕。

本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,__拓端数据(__tecdat__)__不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。

相关文章
|
2月前
|
机器学习/深度学习 数据可视化 数据库
R语言广义线性模型索赔频率预测:过度分散、风险暴露数和树状图可视化
R语言广义线性模型索赔频率预测:过度分散、风险暴露数和树状图可视化
|
3天前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
13 5
|
2月前
|
数据采集 数据挖掘
多维因素与学生辍学风险预测附录
多维因素与学生辍学风险预测附录
38 0
|
8月前
典型偏差和非典型偏差练习
典型偏差和非典型偏差练习
60 5
|
2月前
R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响
R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响
|
2月前
|
数据可视化
R语言时变面板平滑转换回归模型TV-PSTR分析债务水平对投资的影响
R语言时变面板平滑转换回归模型TV-PSTR分析债务水平对投资的影响
|
2月前
|
数据可视化
数量生态学冗余分析(RDA)分析植物多样性物种数据结果可视化|数据分享
数量生态学冗余分析(RDA)分析植物多样性物种数据结果可视化|数据分享
|
2月前
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
|
2月前
R语言逐步多元回归模型分析长鼻鱼密度影响因素
R语言逐步多元回归模型分析长鼻鱼密度影响因素
|
2月前
|
移动开发 安全 算法
社交网络分析6:社交网络不实信息传播分析 、 ILDR(Ignorant-Lurker-Disseminator-Removed)传播动力学模型 、 平衡点 、 平衡点的稳定性分析 、数值仿真
社交网络分析6:社交网络不实信息传播分析 、 ILDR(Ignorant-Lurker-Disseminator-Removed)传播动力学模型 、 平衡点 、 平衡点的稳定性分析 、数值仿真
198 0