R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化

简介: R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化

全文链接:http://tecdat.cn/?p=30990


在分析时,我们向客户演示了用R语言回归、anova方差分析、相关性分析可以提供的内容点击文末“阅读原文”获取完整代码数据


第一节 研究背景与目的

《精品购物指南》是中国本土经营规模最大、最具影响力的时尚媒体品牌,1999年《精品购物指南》即进入全国报业广告十强,2005~2007连续三年获得国家新闻出版总署颁布的“全国生活服务类报纸竞争力10强”,并蝉联第一。2013年,《精品购物指南》被国家新闻出版广电总局评为“全国百强报纸”。

本研究使用对《精品购物指南》所做的一次调查结果作为本次案例分析的数据。试图分析目前阅读《精品购物指南》的群体特征,以及影响阅读《精品购物指南》的时间的因素,从而更好地对受众群体和市场做出分析。

第二节描述性统计

1. 数据预处理

]T{P$IAW26`JR2]U1OV~FVN.png

##变量赋值
colnames(data)=c(
  "编号",
  "性别",
  "年龄",
  "婚姻状况",
  "受教育程度",
  "职业或身份",
  "个人月平均收入",
  "报摊购买",
  "个人订阅",
  "单位订阅",
  "赠阅",
  "借阅他人",
  "其他",
  "上班途中",
  "下班途中",
  "午休时间",
  "逛衔购物时",
  "不定时",
  "对《精品购物指南》的零购情况",
  "家人是否会提醒购买《精品》",
  "是第几选择",
  "家人是否阅读《精品》",
  "",
  "",
  "一直购买(或订阅)本报(习惯)",
  "豪华版内容吸引人",
  "普通版文章吸引人",
  "查找广告信息",
  "参加读者乐园版的活动",
  "逛商场购物需要",
  "价格便宜",
  "没有什么原因想起来就买",
  "其他",
  "住所",
  "工作场所",
  "车站或乘车路途",
  "娱乐场所",
  "其他场所",
  "多少人阅读同一份报纸",
  "阅读《精品》的时间",
  "每天读报时间",
  "对我消费有指导",
  "提高我的生活品位和档次",
  "信息实用性强",
  "关注社会新闻",
  "信息量大",
  "信息质量高",
  "报道领域全面",
  "内容贴近市场",
  "寻找有用的信息和广告",
  "放松自我",
  "通俗易懂",
  "广告信息丰富",
  "版面编排合理",
  "售价合理",
  "订阅或零购方便",
  "其他",
  "平均每月阅读几期《精品》",
  "首先欣赏豪华版",
  "先看标题,再拣有意思的看",
  "我只看自己喜欢的固定栏目",
  "看完喜欢的文章,再浏览其他内容",
  "只查找对自己有用的信息",
  "无目的地翻阅报纸",
  "如果未能看到某一期《精品》",
  "能够阅读完《精品》内容",
  "封面要闻",
  "百姓生活新闻",
  "北京都市新闻",
  "消费新闻",
  "读者乐园",
  "体坛新闻",
  "关注足球",
  "篮球时空",
  "绿茵评说",
  "精品回顾",
  "文化资讯",
  "影视介绍",
  "读书生活",
  "音乐欣赏",
  "外企专递",
  "留学必备",
  "充电课堂",
  "人才聚焦",
  "处世情感",
  "健康",
  "美食",
  "休闲旅游",
  "保险",
  "律师",
  "百货新品",
  "休闲宠物",
  "户外休闲",
  "美食",
  "家庭保健",
  "超市SHOPPER"
  ,"新品试验"
  ,"样品透视"
  ,"汽车时代"
  ,"电脑"
  ,"市场行情"
  ,"通讯网络"
  ,"楼市了望"
  ,"房产金融"
  ,"政策扫描"
  ,"家具世界"
  ,"家装热点"
  ,"选材指南"
  ,"饰品快递"
  ,"非常男人"
  ,"特别女人"
  ,"新新人类"
  ,"网络家庭"
  ,"扮美家居"
  ,"今日妈咪"
  ,"选题大众化"
  ,"信息实用性强"
  ,"可读性强"
  ,"帮助我消费选择"
  ,"趣味性强"
  ,"报道领域全面"
  ,"帮助我了解市场行情"
  ,"放松自我"
  ,"文字优美"
  ,"观点新颖"
  ,"版式活泼"
  ,"品位高雅"
  ,"风格突出"
  ,"广告内容丰富"
  ,"其他"
  ,"招商展览"
  ,"电脑"
  ,"通讯"
  ,"汽车"
  ,"房地产"
  ,"家电"
  ,"食品酒类"
  ,"旅游娱乐"
  ,"商场饭店"
  ,"服装服饰"
  ,"美容用品"
  ,"保健品"
  ,"医疗器械"
  ,"家居用品"
  ,"航空订票"
  ,"招生"
  ,"人才招聘"
  ,"公益广告"
  ,"文化用品"
  ,"房屋祖赁"
  ,"金融证券"
  ,"发行广告"
  ,"其他"
  ,"广告对于消费是否有帮助"
  ,"广告数量适中"
  ,"广告信息丰富"
  ,"广告信息及时"
  ,"广告设计新颖"
  ,

PPG1F]@$LJRVSLSKK]GR6QT.png

{9))QQ}SPQTY6)IX`_)S}L0.png

删除缺失

data=complete.cases(data)

2.绘制不同变量之间的关系

geom_point() + 
    geom_smooth(method=method, ...)

_T$I22B]TC({7EWCZ7AT6N0.png

从每个变量的直方图可以看到变量的大概分布情况。绘制各个变量的饼图可以看到基本人口信息的各个取值的所占的百分比。


点击标题查阅往期内容

6_{Z)(0JJGTSKNE~2DQ958O.png

PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化


左右滑动查看更多

01

RGAKO$QGK4DDFI_(DGK)1`E.png

02

]C$[05{{C@670H37WN_E}YD.png

03

7AM`SRS04N%}G`XX[@%){L6.png

04

S4Q2$B85Z~RJH[OT@AM}@EF.png



L1A8G%2~{]696`]K{[{$%{M.png

第三节 回归,方差分析与模型比较

1.相关性分析

for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i])
#数据归一化
data=scale(datacor)

查看性别和阅读《精品》的时间之间是否有相关关系

cor.test(datacor$"性别",  
         datacor$"阅读《精品》的时间")
##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$性别 and datacor$"阅读《精品》的时间"  
## t = 0.63616, df = 1995, p-value = 0.5247  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.02964101  0.05806894  
## sample estimates:  
##        cor  
## 0.01424136

检验的结果是,由于P =0.5247> 0.05,因此在0.05的显署性水平下,接受原假设,认为两者之间不具有相关关系。

查看婚姻状况和阅读《精品》的时间之间是否具有相关关系

cor.test(datacor$"婚姻状况",  
         datacor$"阅读《精品》的时间")
##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$婚姻状况 and datacor$"阅读《精品》的时间"  
## t = -1.7215, df = 1995, p-value = 0.08531  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.082238962  0.005358859  
## sample estimates:  
##         cor  
## -0.03851404

检验的结果是,由于P =0.08531> 0.05,因此在0.05的显署性水平下,所以接受原假设,认为两者之间不具有相关关系

查看受教育程度和阅读《精品》的时间之间是否具有相关关系

cor.test(datacor$"受教育程度",  
         datacor$"阅读《精品》的时间")
##  
##  Pearson's product-moment correlation  
##  
## data:  datacor$受教育程度 and datacor$"阅读《精品》的时间"  
## t = -0.71111, df = 1995, p-value = 0.4771  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  -0.05974084  0.02796468  
## sample estimates:  
##        cor  
## -0.0159187

检验的结果是,由于P =0.4771>0.05,因此在0.05的显著性水平下,接受原假设,认为两者之间不具有相关关系。

2.回归分析

查看共线性关系

which(abs(cormatrix)>0.6,arr.ind = T)
##                              row col  
## 编号                           1   1  
## 性别                           2   2  
## 年龄                           3   3

从结果看,没有相关系数大于0.6的不同变量。因此,变量间不存在共线性问题。

回归分析

summary(model)

3J73[PNX`R_$SVBY7DUD0)3.png

)H}D%2AI0GY)[D8_ZF9S75P.png

6GU2]E}KA}DOVFQ6AN1YY%F.png

QRT`Q$GF@QCC@A{}4%)W3CY.png

ZNB9QKO[FKU``)]P2}B7J{Y.png

从回归模型的结果来看,可以看被调查者的职业或身份,家人是否阅读《精品》`,以及豪华版内容是否吸引人等因素对被调查对象否阅读《精品》的时间有比较大的影响,p值小于0.05,因此该变量对被调查者选择去看报纸有显著的影响 。

相关视频


N]~4ALK18@}~SZX4OS8]Z7A.png

N]~4ALK18@}~SZX4OS8]Z7A.png

(2GX2M207B6}DGDX%3(YS@M.png

12BU6)T%X8E$J_H0$H7SQ[T.png




3.模型筛选与比较

无常数项模型拟合

OVFIJF~%KOJ7](O}DHTK%YP.png

T8H}4Y@0N3}}[P`5}W`JDG7.png

}N[Q]G2IPQP~801B{A)W3RQ.png

G}OFVH8RVQSG9~M55ZX1%SM.png

GD))J727CI$2MLMII$@YSNS.png

回归模型校正

利用qqPlot()函数提供的正态假设检验方法,它画出了在n-p-1个自由度的t分布下的学生化残差图形,再配合Shapiro检验得出检测结果,而Shapiro样本量的大小范围 配合下图可以发现除了Providence,所有的点都离直线很近,都落在置信区间内,这表明与正态性假相符。

library(car)  
qqPlot(model2,labels = row.names(datacor))

N2D2Y@8(81F5`21Z]}(0YBR.png

方差齐性

利用残差绘制曲线图并配合Durbin-Watson检验,此检验方法能够检测误差的序列相关性,再配合下表检验结果显著性为0.7604表示接受原假设,因此误差项独立性检验通过。

dwtest(model2)
##  
##  Durbin-Watson test  
##  
## data:  model2  
## DW = 2.0242, p-value = 0.7604  
## alternative hypothesis: true autocorrelation is greater than 0

方差分析

YWH1%AHBDWD}QDWM1AAORLA.png

所有变量的p值都小于0.05,说明在0.05的显著水平上,不同特征的被调查对象的阅读精品时间之间有明显差别。

相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
55 3
|
2月前
|
机器学习/深度学习 数据采集 人工智能
R语言是一种强大的编程语言,广泛应用于统计分析、数据可视化、机器学习等领域
R语言是一种广泛应用于统计分析、数据可视化及机器学习的强大编程语言。本文为初学者提供了一份使用R语言进行机器学习的入门指南,涵盖R语言简介、安装配置、基本操作、常用机器学习库介绍及实例演示,帮助读者快速掌握R语言在机器学习领域的应用。
109 3
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
4月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
89 3