数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测

简介: 数据代码分享|R语言基于逐步多元回归模型的天猫商品流行度预测

全文链接:https://tecdat.cn/?p=33212


本文通过利用回归模型对天猫商品流行度进行了研究,确定了决定天猫商品流行度的重要因素。并讲述、论证了预测天猫商品流行度是天猫商品交易的至关重要的环节。通过对天猫商品流行度预测技术的发展和探讨,深度剖析了天猫商品流行度预测这个研究课题点击文末“阅读原文”获取完整代码数据


一、 天猫商品流行度预测发展简介


本文使用的数据集为天猫商品数据集查看文末了解数据免费获取方式

image.png

它包含562个商品的属性数据。每个商品包括4个属性,具体的4个属性如下:


该数据集有以下一些变量:

列名 描述
Item_id [ 1 , 8133507]为整数,表示唯一项(备注:两个以上商家同时提供的 A产品记录在多个不同ID的行中。例如,流行的手机如iPhone 6。)。 
Title 一个包含多个关键字的 字符串,由' '  分隔。通过NLP系统从原始标题中提取单词。
Pict_url 在线链接到对应图片的URL  。
Category  字符串' x-y ',其中  ' x '表示其父类,' y '表示其余类。
Brand_id 字符串为' b1 '、' b89366 ',表示商品的品牌。
Seller_id 字符串' s1 ',' s86799 ',表示出售该物品的卖方。

对数据进行概览

summary(data)

image.png

删除缺失值

datanew=na.omit(data)

主要思路

为了准确的估计流行度,了解天猫商品流行度的一般规律,更好为天猫商品投资方提供参考意见,本文从天猫商品流行度和天猫商品相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了天猫商品流行度变动的影响因素. 具体分析步骤:

1.关系分析

基于以上原理,为大致了解流行度与诸因素之间的关系,先分别绘制流行度与各个因素之间的散点图,并分析它们之间的关系 ,这样可以减少人为因素对流行度的影响,尽量将注意力集中在我们假设选用的自变量上。

2.选择多项式回归模型

2.1变量选取

通过向前向后逐步迭代回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验

根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测

使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果,包括对数回归模型,迭代回归模型。

4.分析得出结论

得出各个自变量之间的关系,以及它们对因变量的影响及其意义。  


流行度

查看每个类别的出现频率作为流行度,通过直方图查看每个类别出现的频率:

hist(datanew$category)

image.png

对每个类别出现的频数的多少进行排序:

order(table(dataneg = T)
datanew$pop=   order(

image.png

然后将出现最多的流行度排序为1,然后根据类比的出现频数递增。流行度越大,则出现越少。


建立多元线性:imdb

尝试通过最直观的解释建立模型:


进行多元线性模型并进行分析

设置dummy 变量 :从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测流行度,因此对其中的部分变量进行删减后。得到筛选后的回归模型。


筛选变量

显示回归结果:


点击标题查阅往期内容


贝叶斯线性回归和多元线性回归构建工资预测模型


01

02

image.png

03

image.png

04

image.png


模型比较

js

**取对数后的结果**  
summary(lmmod2)显示回归结果

image.png

image.png

回归结果

plot(datanew$category

image.png

回归结果分析

从输出结果可以看出, 流行度和类别和品牌图片地址 有显著相关关系 ,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。进一步地剩余方差的估计值,f统计量的估计值对应的p值< 2.2e-16说明,回归方程是显著的。可决系数R,修正的可决系数R为 0.1左右说明方程的拟合效果一般,还有部分的流行度被其他变量所解释。

回归结果

image.png

置信区间与预测区间:

置信区间是给定自变量值后,由回归方程得到的的预测值(实际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。预测区间要比置信区间稍大,命令与显示结果如下:

head(predict(lm))

image.png

head(predict(lmmod

image.png

残差分析:

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。命令语句为plot(lm.1),显示结果如下

par(mfrow=c(2,2))  
plot(lmmod2)

image.png

左上图是拟合值与残差的散点图,从图上可以发现,除去第2个离群点外,所有点基本上是随机地分散在纵坐标值为-1和+1的两条平行线之间,这说明随机误差项具有同方差性;左下图是拟合值与残差的标准差的散点图,其意义与上面类似;右上图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实第2个观测值是一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。


点击标题查阅往期内容


数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化


01

02

03

04


逐步回归优化

使用逐步回归法建立“最优”的回归方程

stepmod=step

image.png

summary(stepmod)查看模型参数与结果

image.png

上面用“逐步向前向后回归法”,通过软件分析建立“最优”回归方程。向后回归法就是建立包含全部因子的回归方程,通过回归系数的检验,从回归方程中逐个剔除不显著的因子,直到留在方程中的因子都是显著的。


总结


从分析结果可以看出, 流行度和类别和品牌图片地址有显著相关关系 ,因此可以认为在天猫购物时,用户会比较关注商品的品牌因素,因为天猫都是正品商铺,购买的用户会比较关注商品的品牌是否为正品等。同时,由于天猫的商品质量有一定的保证,因此用户也会关注该商品的图片,同一个商品可能会因为图片不同而造成不同的流行度。图片好看的商品会有更好的流行度。

相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
3月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
3月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
53 3
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。