R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究

简介: R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究

数据处理和分析在数据科学领域中扮演着至关重要的角色。确保数据的准确性和完整性是数据处理的首要任务。在本研究中,我们以空气质量数据为例,帮助客户进行了数据处理和分析点击文末“阅读原文”获取完整代码数据

相关视频

image.png

image.png

image.png

根据空气质量的指标(x1~x7),我们将30个城市分成两类,并使用Y1来评估分类的效果。为了便于分类,在本研究中,我们将使用决策树方法和支持向量机(SVM)方法来进行分类分析。这两种方法在机器学习领域被广泛应用,能够有效地处理分类问题,并提高模型的准确性和泛化能力。

读取数据

首先,我们使用R语言中的read.csv函数来导入名为"air.csv"的数据集,并通过skip参数跳过第一行进行读取。

空气质量数据:

358dbf21862519c54bfd1db0b81d8a8c.png

随后,使用head函数来查看数据的前几行,以初步了解数据的结构和内容。

data=read.csv("air.csv",skip = 1)  
head(data)


e7f4bbb026f57ee8fad56ab384983cba.png

第一部分:

数据处理 :我们将Y1的指标转化为0和1,分别表示该城市的空气质量好和差。这种分类方法有助于后续的分析和建模。

data$Y1<-ifelse(data$Y1>365*0.8,'空气好','空气差')

构建因变量

data$Y1<-as.factor(data$Y1)  ## 将因变量格式转为因子型

构建训练集、测试集

在编程的过程中,我们需要确保每个步骤都得到充分的考虑和完善。从数据预处理、特征工程、数据可视化到建模、验证和优化,每个环节都至关重要,不能有任何遗漏。此外,构建训练集和测试集也是非常关键的一步。我们采用了分层抽样的方法,将数据集分为70%的训练集和30%的测试集。通过这种划分方式,我们可以在训练集上建立模型,并在测试集上验证模型的准确性和泛化能力,从而评估模型的有效性和可靠性。

train<-data[trainindex, ]  ## 去除price变量的训练集  
test<-data[-trainindex, ]  ## 去除price变量的测试集

训练svm模型

一、使用线性核函数去拟合SVM模型

在训练SVM模型的过程中,我们首先使用线性核函数进行拟合。

1)模型拟合

,data=train,kernel='linear',  
             cost=10,scale=F)  
             #kernel='linear'  ## 选择线性核函数  
#scale=F  ## 对数据不进行标准化处理,支持向量机的的损失函数为凸函数,是否标准化不影响最优解,但标准化之后可以使求解速度变快  
#cost=10  ## 参数代表犯错的成本,越大模型对误差的惩罚越大,生成的分类边界越复杂

在上述代码中,我们使用svm函数拟合了一个SVM模型,其中指定了使用线性核函数(kernel='linear')进行分类。参数cost=10表示对误差的惩罚程度,这个值越大,模型对误差的惩罚越大,生成的分类边界也会更复杂。同时,我们选择不对数据进行标准化处理(scale=FALSE),因为SVM的损失函数是凸函数,标准化数据不会影响最优解,但可以加快求解速度。

summary ( svmfit1 )


f47a3479009ac3e9ed25ca7e5448a8ad.png


summary函数对拟合的SVM模型进行了摘要。该摘要包含了模型的关键参数和性能指标,如下所示:

  • SVM-Type: C-classification
  • SVM-Kernel: linear
  • cost: 10
  • gamma: 0.02173913
  • Support Vectors数量: 8

从摘要中可以看出,我们拟合的SVM模型是一个C-classification类型的模型,使用了线性核函数,cost参数为10。此外,模型中有8个支持向量,这些支持向量在决定分类边界时起到关键作用。最后,模型中共有2个类别,分别为"空气差"和"空气好"。

2)对svmfit1模型进行改进,选择最优的cost值

在对已拟合的svmfit1模型进行改进时,我们选择了最优的cost值。以下是具体步骤和结果的解释:

ranges =list(cost=c(0.001 ,  
                                   0.01, 0.1, 1,5,10,100) ))  
summary (tune.out )


4fb6de79a3a97268bdef33229d390121.png


在上述代码中,我们使用tune函数对svm模型进行参数调优,通过10折交叉验证的方式选择最优的cost值。summary函数用于查看调优结果摘要,包括最佳参数和性能指标。

从上述结果中可以看出,经过参数调优后,最佳的cost值为0.1,对应的误差率为0.05。在调优过程中,我们对不同的cost值进行了评估,并选择了性能最优的参数值。

         

summary ( best.mode1 )

0adf1a1e1e5b48e6c465b0d2dddcdbd4.png

在最优模型摘要中,我们可以看到调优后的最佳模型参数为C-classification类型的线性SVM模型,使用线性核函数,cost参数为0.1。模型中共有11个支持向量,共包含2个类别:"空气差"和"空气好"。这些结果表明通过参数调优,我们成功选择了最优的cost值,优化了SVM模型的性能。

3)模型评估

在对模型进行评估的过程中,我们首先对SVM模型进行评估,然后训练决策树模型。

ypred<-predict(


df9752debdb0559df0bdd20185663758.png

在上述代码中,我们使用predict函数对训练好的SVM模型进行预测,得到了预测结果。这些结果可以与真实值进行对比,从而评估模型的性能。以上结果展示了SVM模型的预测情况,包括真实值和预测值的对比,可以进一步分析模型的准确性和性能。

训练决策树模型

接下来,我们训练决策树模型,以下是具体步骤和结果的解释:

.-label-Y1,  
             method="class", dat

f1ea9a281df9070bb2439624067d93c5.png

在上述代码中,我们使用rpart函数训练了一个决策树模型,其中method="class"表示进行分类分析。模型使用了数据集中除了label和Y1以外的其他变量作为预测因子。通过plotcp函数可视化交叉验证结果,进一步评估模型的性能。以下是可视化结果:

plotcp(fit) # visualize cross-validation results

180db3d2350d1e2491b7526752ef993d.png

summary(fit) #

8e0a998734a363a259d4bbd4fb92c06a.png

最后,利用summary函数对训练的决策树模型进行摘要,包括模型的性能指标、变量重要性以及节点信息。通过摘要结果,我们可以深入了解模型的构建过程和性能表现,为进一步的模型评估和优化提供参考。

cac7fce2fdd19e25dbc86cbaae53ccdf.png


第二部分:

根据第一部分的结果分成的两类城市来, 对第一类城市(空气好的城市):先根据城市发展指标(x8~x15)做因子分析,再将分出的因子和AQI值(y2)做对应分析,来分析它们的相关关系;

data1=data[data$Y1=="空气好",]

对第一类城市(空气好的城市)进行因子分析和相关关系分析的步骤如下:

因子分析

画出协方差阵和相关系数矩阵

cov(data1[,-c(1,9:10)]  )

1b4d5d27d8cc8c247d20687fa20f713b.png

协方差阵展示了不同变量之间的协方差关系,可以帮助我们了解变量之间的线性关系。

cor(data1[,-c(1,9:10)]  )

220d4936b0f439d00c0e6d5066abb589.png


相关系数矩阵显示了各个变量之间的相关性程度,可以帮助我们理解变量之间的相关关系。

采用斜交旋转提取因子

a1[ ,-c(1,9,10,11)]), nfactors=8, rotate=
 cor(data1$Y2 ,fm$scores)

7176944462996a1ce1451a67fc7c7b66.png

在这一步中,我们采用斜交旋转提取因子的方法,将城市发展指标(x8~x15)进行因子分析,并提取8个因子。接着,我们将提取的因子与AQI值(Y2)进行对应分析,以探究它们之间的相关关系。

以上代码展示了AQI值(Y2)与提取的因子之间的相关系数,帮助我们分析城市发展指标与空气质量之间的关联关系。

对第二类城市(即空气质量较差的城市)的研究中,我们首先针对城市发展指标(x8~x15)进行了因子分析,以探究这些指标之间的潜在结构。随后,我们将因子分析得到的因子与空气质量指数(AQI值,即y2)进行了对应分析,以揭示它们之间的相关关系。

首先,我们从原始数据集中筛选出空气质量较差的城市数据  

data1=data[data$Y1=="空气差",]

因子分析

接着,我们对筛选出的城市发展指标(x8~x15)进行了因子分析。为了初步了解这些指标之间的关联性,我们计算了它们的协方差矩阵。协方差矩阵能够展示各指标之间的变异程度以及它们之间的线性相关程度。

cov(data1[,-c(1,9:10)]  )
cor(data1[,-c(1,9:10)]  )


cb8b5a07641ea4054fca25d73b740f1f.png

9f5e1a7565de491b69e3318df4a8c007.png

采用斜交旋转提取因子

对第二类城市(即空气质量较差的城市)进行深入研究时,我们首先采用因子分析方法来探究城市发展指标(x8~x15)之间的潜在结构。为了更清晰地解释因子并使其具有实际意义,我们使用了斜交旋转(特别是“varimax”旋转)来提取因子。这种方法有助于我们理解各个因子所代表的原始指标组合,以及这些因子在解释城市发展特征时的相对重要性。

在因子分析过程中,我们设定了提取8个因子的目标,这是因为我们希望找到能够代表原始指标中大部分信息的少数几个因子。通过斜交旋转,我们得到了旋转后的因子载荷矩阵,这有助于我们解释每个因子所代表的含义。

随后,为了探究这些因子与空气质量指数(AQI值,即y2)之间的相关关系,我们计算了因子得分与AQI值之间的相关系数。相关系数矩阵显示了每个因子与AQI值之间的线性相关程度。

ctors=8, rotate="varimax
cor(data1$Y2 ,fm$scores)

9480c84ba9e1a0fceed45819ecab0626.png

从相关系数矩阵中,我们可以看到MR5因子与AQI值之间存在较高的正相关关系(相关系数为0.8802801),这意味着该因子所代表的城市发展特征与空气质量较差有显著的正向关联。同时,MR6因子也与AQI值呈现出一定的正相关(相关系数为0.3007104),表明该因子同样与较差的空气质量有关。

其他因子与AQI值之间的相关系数虽然较低,但也可能存在某种关联。这些结果为我们提供了关于城市发展指标与空气质量之间关系的初步线索,有助于我们进一步理解和分析这些城市在发展过程中所面临的空气质量挑战。

相关文章
|
5月前
|
数据可视化 数据挖掘 图形学
R语言基础可视化:使用ggplot2构建精美图形的探索
【8月更文挑战第29天】 `ggplot2`是R语言中一个非常强大的图形构建工具,它基于图形语法提供了一种灵活且直观的方式来创建各种统计图形。通过掌握`ggplot2`的基本用法和美化技巧,你可以轻松地将复杂的数据转化为直观易懂的图形,从而更好地理解和展示你的数据分析结果。希望本文能够为你探索`ggplot2`的世界提供一些帮助和启发。
|
5月前
|
数据可视化 数据挖掘 数据处理
R语言高级可视化技巧:使用Plotly与Shiny制作互动图表
【8月更文挑战第30天】通过使用`plotly`和`shiny`,我们可以轻松地创建高度互动的数据可视化图表。这不仅增强了图表的表现力,还提高了用户与数据的交互性,使得数据探索变得更加直观和高效。本文仅介绍了基本的使用方法,`plotly`和`shiny`还提供了更多高级功能和自定义选项,等待你去探索和发现。希望这篇文章能帮助你掌握使用`plotly`和`shiny`制作互动图表的技巧,并在你的数据分析和可视化工作中发挥更大的作用。
|
8月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
4月前
|
机器学习/深度学习 算法 数据挖掘
R语言中的支持向量机(SVM)与K最近邻(KNN)算法实现与应用
【9月更文挑战第2天】无论是支持向量机还是K最近邻算法,都是机器学习中非常重要的分类算法。它们在R语言中的实现相对简单,但各有其优缺点和适用场景。在实际应用中,应根据数据的特性、任务的需求以及计算资源的限制来选择合适的算法。通过不断地实践和探索,我们可以更好地掌握这些算法并应用到实际的数据分析和机器学习任务中。
|
5月前
|
数据可视化
R语言可视化设计原则:打造吸引力十足的数据可视化
【8月更文挑战第30天】R语言可视化设计是一个综合性的过程,需要综合运用多个设计原则来创作出吸引力十足的作品。通过明确目标、选择合适的图表类型、合理运用色彩与视觉层次、明确标注与引导视线以及引入互动性与动态效果等原则的应用,你可以显著提升你的数据可视化作品的吸引力和实用性。希望本文能为你提供一些有益的启示和帮助。
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
3月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
62 3
|
8月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。