数据分享|R语言用主成分分析(PCA)PCR回归进行预测汽车购买信息可视化

简介: 数据分享|R语言用主成分分析(PCA)PCR回归进行预测汽车购买信息可视化

原文链接:http://tecdat.cn/?p=26672


在这个项目中,我讨论了如何使用主成分分析 (PCA) 进行简单的预测。

出于说明目的,我们将对一个数据集进行分析,该数据集包含有关在 3 个不同价格组内进行的汽车购买信息以及影响其购买决定的一组特征查看文末了解数据获取方式

首先,我们将导入数据集并探索其结构。

head(caref)

众所周知,PCA 使用欧几里得距离来推导分量,因此输入变量需要是数字的。正如我们所看到的,除了“组”变量之外,所有数据都是数字格式,因此我们不必执行任何转换。

为了查看数字变量在 3 个价格组中的表现,我分别为每个数字变量生成箱线图。

ggplot(cr_e.m, aes(x = varle, y = vle, fill = Gup)) +
    geom_boxplot()

通过观察上图,我们可以了解到每个价格组的消费者对所考虑的特征有不同的看法(即,给出不同的评分)。(“安全”特征的变化较小,在所有 3 个价格组中具有更高的排名/重要性)


点击标题查阅往期内容


Python用稀疏、高斯随机投影和主成分分析PCA对MNIST手写数字数据进行降维可视化


01

02

03

04



现在为了更好地可视化这 3 个价格组集群如何在 3D 空间中出现,我使用 3 个特征变量构建了一个 3D 图,显示给定评级之间的显着差异。

same3dpot <- with(carpef, scttro3d(Enirnmnt,Innoaon,Prtge

在上图中,我们可以看到来自每个价格组的数据点(集群)之间的明显差异。

在继续应用 PCA 之前,现在我将检查输入变量之间是否存在任何相关性。

corrplot(oras)

可以看出,“创新”、“安全”和“声望”特征之间似乎有明显的相关性。

通常在构建模型时,我们会删除一些(不必要的)相关预测变量而不包括模型,但鉴于我们正在执行 PCA,我们不会这样做,因为应用 PCA 的想法是生成新的主成分(它们不会相互关联)并用降低的维度替换当前的预测变量集。

pcmol <- prcomp(ca_eeued, scale. = TRUE, center = TRUE)

通过观察 PCA 的输出,我们可以看到前两个 PC 解释了数据中 89% 的可变性。

通过包括 3 个 PC,该模型将解释 97% 的可变性,但由于 2 个 PC 可以解释大约 90% 的数据,因此我将只使用 2 个 PC。

此外,通过观察下面的碎石图和每个PC的重要性,我们也可以理解,只用两个PC是可以的。

sumacamel = summary(adel)
plot(pc_el,type = "l")

由于我们只坚持前两个主成分,现在我检查每个预测变量对每个主成分的影响量。

下面我根据它们对每个PC 的影响按降序排列了这些特性。

#对于PC 1
longScrsPC_1 <- pcael$roto\[,1\]
faccore\_PC\_1 <- abs(odingcre\_PC\_1)
fa\_scre\_PC\_1raked <- nmes(rt(fac\_cos1,decreasing = T))

pamod$roatn\[fa\_coC\_\_and,1\]

现在我们最终在这两个 PC 上绘制原始数据,并检查我们是否可以分别识别每个价格组的数据点。

#PC_n2 <- qplot(x=PC1, y=PC2

我们可以看到数据点是根据它们所在的每个价格进行聚类的!

使用上述特征,现在我们将尝试根据他/她对所考虑的特征给出的评级来预测一个人会购买哪种类型的汽车!

让我们假设一个客户对每个特征给出了以下评级:

安全:9 环境:8 创新:5 声望:4

现在让我们尝试预测该客户将属于哪个价格组:

new_ser <- c(9,8,5,4)
new\_cus\_group <- predict(pcmdl, newdata = car\_pef\_ecew_c\[nrow(),\]
lt\_3 <- pot\_2 + ge\_point(aes(x=newcus\_

通过观察这个新观察值在 PC1 和 PC2 上的位置,我们可以得出结论,新客户更有可能购买价格组 B 的汽车!如果我需要做出一些不同的预测,我个人会使用这种方法,因为它非常快速且易于理解和解释。这种方法可以扩大规模以构建 PC 回归模型,尤其是当预测变量相关且需要正则化时。


相关文章
|
3月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
|
3月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
3月前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
3月前
|
机器学习/深度学习 人工智能 数据可视化
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据
|
3月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
3月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4天前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
12 3
|
3月前
利用R语言进行典型相关分析实战
利用R语言进行典型相关分析实战
|
3月前
|
机器学习/深度学习 算法
R语言分类回归分析考研热现象分析与考研意愿价值变现
R语言分类回归分析考研热现象分析与考研意愿价值变现
|
3月前
|
数据可视化 定位技术
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化
R语言贝叶斯INLA空间自相关、混合效应、季节空间模型、SPDE、时空分析野生动物数据可视化

热门文章

最新文章