用回归和主成分分析PCA 回归交叉验证分析预测城市犯罪率数据

简介: 用回归和主成分分析PCA 回归交叉验证分析预测城市犯罪率数据

在本文中,我解释了基本回归,并介绍了主成分分析 (PCA) 使用回归来预测城市中观察到的犯罪率。我还应用 PCA 创建了一个回归模型,用于使用前几个主成分对相同的犯罪数据进行建模。最后,我对两种模型的结果进行了比较,看看哪个表现更好。

回归有助于显示因素和因变量之间的关系,它基本上回答了两种类型的问题;1. 吸烟对癌症的影响 2. 未来会发生什么?(例如)三年后的油价。

数据

犯罪学家对惩罚制度对犯罪率的影响感兴趣。已使用汇总数据对此进行了研究。数据集包含以下列:

变量描述

M:  14-24岁的男性在总人口中的百分比

So:  南方的指标变量

Ed:  25岁或以上人口的平均受教育年限

Po1:年警察保护的人均支出

Po2:去年警察保护的人均支出

LF:14-24岁年龄组的城市男性平民的劳动力参与率

M.F:每100名女性的男性人数

Pop:国家人口,以十万计

NW:非白人在人口中的百分比

U1:14-24岁城市男性的失业率

U2:城市男性35-39岁的失业率

财富财富:可转让资产或家庭收入的中值

收入不平等:收入低于中位数一半的家庭的百分比

入狱概率:入狱人数与犯罪人数的比率

时间:罪犯在首次获释前在国家监狱中服刑的平均时间(月)。

犯罪:每10万人口中的犯罪数量

导入R环境

read("crim.txt")

检查变量是否正确

head(crim) #所有的变量都是预测因素,只有犯罪是因变量。

创建简单的回归模型

summary(model)

使用数据框架来手动创建我们的数据点测试,然后在测试数据上运行一些预测。

primodl <- predict(mdl, test)



输出值不到下一个最低城市的犯罪率的一半,所以我将创建第二个模型,观察它的输出并画出比较。

创建第二个模型

sumry(son_mel)

我们现在可以对第二个模型进行预测了

pic\_secn\_mel<- prict(sed_odel, tst)


pic\_secn\_mel

与第一个模型相比,其结果明显更高。所以,它更合理。

交叉验证

我们可以做一个5折的交叉验证。

cv(se,m=5)

我们可以得到数据和其平均值之间的平方差的总和



点击标题查阅往期内容



sum((Cm- mean(ui))^2)

我们可以得到模型1、模型2和交叉验证的平方残差之和

SSrl <- sum(res^2)

SSre <- sum(resi^2)

res <- "ms")*nrow

我们也可以计算出3个模型的R平方值

1 -res/tot

1-res/SS

1-res/SS

获得的R平方值表明我们的拟合质量很好。对于惩罚性回归,有必要对数据进行标准化,以确保所有的特征都受到同等的惩罚。但在线性回归的情况下,这其实并不重要。它将只是转移截距和系数,但相关关系保持不变。

PCA

PCA是一种用于描述变化的方法,显示数据集中的强相关性,从而使其易于探索和可视化数据。PCA通过以下方式对数据进行转换:(1)去除数据中的相关关系(2)按重要性对坐标进行排序。

我们可以检查crime数据的预测变量之间的相关性。

pairs(srm,c("o",Ed"o"))

对数据集中的所有预测变量应用PCA。请注意,为了获得更准确的PCA结果,需要对这些变量进行标准化。

sumr(pca)

rotan #PCA旋转是特征向量的矩阵

pca

然后,我们可以通过绘制每个主成分的方差来决定在 "前几个 "主成分中使用多少个主成分。

plotpcaye ="ie")

要确定使用多少PC?我们可以尝试使用5个主成分作为开始。

pcax\[,1:5\]

使用前五个PC,我们可以继续建立一个线性回归模型。

summary(mdPCA)

为了根据原始变量重建模型,首先我们从PCA线性回归模型中获得系数,之后通过使用主成分的特征向量将PCA成分系数转化为原始变量的系数。

PCA线性回归的系数

coefficients\[1\]

coefficients\[2:6\]


beta0 #截距

转换

rot %*% beta


t(alpha) # 标准化的数据系数

获得未标准化数据的系数。

ahusl <- ahs / sppy(u\[,1:15\],sd)


ba0cl <- ea0 - sum/sapply(sd))

未标准化数据的系数

t(alas_sled)


be0uced

#我们可以得到我们的未标准化数据的估计值


as.marx %*% unscle + beta0aled

最后,为了比较使用PCA的模型和使用回归的模型的质量,我们必须计算R-squared和调整后的R-squared,并将这些数值与前一个模型的数值进行比较。调整后的R平方考虑了模型中预测因子的数量。

Rsquared <- 1 - SSE/SST # R-squared

使用所有变量的无PCA的先前线性回归模型

summary(dlLR)

R-squared 和调整后的 R-squared 值都较高,这表明至少对于使用前五个主成分的模型,具有 PCA 的线性回归模型优于没有 PCA 的线性回归模型。为了检查使用不同数量的前 n 个主成分的线性回归模型是否产生了更好的拟合模型,我们可以使用循环并进一步进行交叉验证。

相关文章
|
机器学习/深度学习 数据可视化 计算机视觉
【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享
【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享
|
人工智能 算法 机器人
字节Coze优缺点分析
【2月更文挑战第16天】字节Coze优缺点分析
3242 2
字节Coze优缺点分析
|
数据采集 机器学习/深度学习 数据可视化
数据科学项目实战:完整的Python数据分析流程案例解析
【4月更文挑战第12天】本文以Python为例,展示了数据分析的完整流程:从CSV文件加载数据,执行预处理(处理缺失值和异常值),进行数据探索(可视化和统计分析),选择并训练线性回归模型,评估模型性能,以及结果解释与可视化。每个步骤都包含相关代码示例,强调了数据科学项目中理论与实践的结合。
1236 2
|
3月前
|
安全 机器人 数据挖掘
RPA机器人流程自动化软件的优点
RPA(机器人流程自动化)是企业数字化转型的重要工具,通过模拟人类操作自动完成重复性业务流程。它具有六大优势:提高工作效率,以更快的速度和连续性完成任务;降低运营成本,减少对人工的依赖;提升准确性,避免人为错误;增强业务流程可扩展性,灵活应对变化;提升员工满意度,让员工专注于高价值工作;强化合规性和安全性,保障数据操作规范与安全。RPA正成为企业提升竞争力的关键利器。
|
8月前
|
存储 安全 大数据
阿里云存储:优缺点深度剖析
阿里云存储是国内领先的云存储服务,具备高效稳定、弹性可扩展、安全可靠及丰富的产品线等优点,适用于各种规模的企业。其分布式架构支持高并发和大数据处理,提供多层次的安全防护和灵活的存储方案。然而,成本较高、数据安全风险和网络连接稳定性等问题也需关注。用户应根据需求权衡利弊,选择合适的存储方案。
888 74
|
自然语言处理 JavaScript 前端开发
vue2 div滚动条下拉到底部时触发事件(懒加载) 超级简易版本的懒加载
【6月更文挑战第4天】导文 vue2 div滚动条下拉到底部时触发事件(懒加载) 超级简易版本的懒加载 文章重点 内容效果展示: 当div拉到底部的时候: 在这里插入图片描述 编辑器返回: 在这里插入图片描述 代码展示 在Vue 2中,可以通过监听div的scroll事件来判断滚动条是否到达了底部。以下是一个简单的示例:
381 2
|
10月前
|
存储 前端开发
在React框架中,如何使用对象来管理组件的状态
在React中,组件状态通过`state`对象管理,利用`setState`方法更新状态。状态变化触发组件重新渲染,实现UI动态更新。对象结构清晰,便于复杂状态管理。
|
SQL 存储 数据可视化
sql学习数据库
SQL(Structured Query Language)是用于管理关系型数据库的标准编程语言。学习SQL数据库涉及理解数据库的基本概念、SQL语言的组成以及如何使用SQL进行数据的查询、操作和处理
1501 0
|
数据采集 存储 数据挖掘
Python网络爬虫实战:抓取并分析网页数据
使用Python的`requests`和`BeautifulSoup`,本文演示了一个简单的网络爬虫,抓取天气网站数据并进行分析。步骤包括发送HTTP请求获取HTML,解析HTML提取温度和湿度信息,以及计算平均温度。注意事项涉及遵守robots.txt、控制请求频率及处理动态内容。此基础爬虫展示了数据自动收集和初步分析的基础流程。【6月更文挑战第14天】
886 9
|
存储 安全 C语言
C语言中的字符串常量及其处理技术
C语言中的字符串常量及其处理技术
467 0