利用R语言进行典型相关分析实战

简介: 利用R语言进行典型相关分析实战

1 目的

  根据固定资产投资的资金来源、理论框架以及我国现有数据资料,对各类投资资金与三大产业进行典型相关分析。

2 数据背景

  数据是根据《中国统计年鉴2007》中31个省、市、自治区相关数据汇总整理得出。选取以下五个指标作为第一组变量来衡量投资资金的变化:

  • x1:国家预算内资金;
  • x2:国内贷款;
  • x3:利用外资;
  • x4:自筹资金;
  • x5:其它资金来源。

  可以选择下面三个指标作为第二组变量来反映各产业生产总值的变量:

  • y1:国家预算内资金;
  • y2:国内贷款;
  • y3:利用外资。

  详细的数据如表 1所示。

表1 2006 年全国各地区各类投资资金与三大产业增加值的统计表

3 建模分析

3.1 数据读取

  运行程序:

rm(list=ls()) #清空变量 
library("openxlsx") #加载包 
library("knitr") #加载包 
library("xlsx") #加载包 
source('G:/msaR.R') #引用 msaR.R 自编函数 
data<-read.xlsx("G:\\2006 年全国各地区各类投资资金与三大产业增加值的统计表 1.
xlsx",'Sheet1',encoding = "UTF-8") #读取 excel 数据 
head(data) #显示数据前六行

  运行结果:

## 地区 x1 x2 x3 x4 x5 y1 y2 y3 
## 1 北京 105.40 1316.3 76.18 1523 1825.4 98.04 2191 5581 
## 2 天津 22.79 527.8 152.98 1182 397.3 118.23 2488 1753 
## 3 河北 98.79 638.0 76.96 4247 600.3 1606.48 6115 3939 
## 4 山西 81.81 474.0 29.22 1504 263.9 276.77 2748 1727 
## 5 内蒙古 149.21 400.9 21.83 2514 207.3 649.62 2327 1814 
## 6 辽宁 271.52 742.5 132.42 4185 695.6 976.37 4730 3545

3.2 相关矩阵散点图

  运行程序:

data1<-data.frame(scale(data[,2:9])) #标准化系数 
data2<-data.frame(round(cor(data1),3)) #标准化数据后相关系数矩阵 
data2 #相关系数矩阵 
## x1 x2 x3 x4 x5 y1 y2 y3 
## x1 1.000 0.110 -0.090 0.243 0.044 0.373 0.108 0.078 
## x2 0.110 1.000 0.786 0.735 0.965 0.478 0.825 0.933 
## x3 -0.090 0.786 1.000 0.735 0.785 0.485 0.901 0.888 
## x4 0.243 0.735 0.735 1.000 0.690 0.811 0.926 0.803 
## x5 0.044 0.965 0.785 0.690 1.000 0.439 0.796 0.938 
## y1 0.373 0.478 0.485 0.811 0.439 1.000 0.733 0.595 
## y2 0.108 0.825 0.901 0.926 0.796 0.733 1.000 0.927 
## y3 0.078 0.933 0.888 0.803 0.938 0.595 0.927 1.000 
library(PerformanceAnalytics)#加载包 
chart.Correlation(data1[c(1:31),c(1:8)], histogram=TRUE, pch=19) 
#相关系数矩阵散点图 
1. data<-read.csv("G:\\某乐队 CD 盘销售情况.csv") #数据读取 
2. names(data) <- c("周次","y","x1","x2") #列命名 
3. fm=lm(y~x1+x2,data=data) #最小二乘回归 
4. summary(fm) #结果

  运行结果:

Call: 
lm(formula = data$y ~ data$x1 + data$x2, data = data) 
 
Residuals: 
 Min 1Q Median 3Q Max 
-747.71 -229.80 -2.14 267.23 547.68 
 
Coefficients: 
 Estimate Std. Error t value Pr(>|t|) 
(Intercept) -574.0550 349.2701 -1.644 0.1067 
x1 191.1001 73.3090 2.607 0.0121 * 
x2 2.0451 0.9107 2.246 0.0293 * 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 
 
Residual standard error: 329.7 on 49 degrees of freedom 
Multiple R-squared: 0.2928, Adjusted R-squared: 0.264 
F-statistic: 10.15 on 2 and 49 DF, p-value: 0.0002057

  结果见图1所示。

图1 相关系数矩阵散点图

  由相关系数矩阵和相关系数矩阵图可以看出,y1y2y3分别与x4x4x5的相关系数最大。表明我国第一产业和第二产业增加值与与我国 自筹资金相关度最高,第三产业增加值与我国其它资金来源相关度最 高,相关系数分别达到 0.81、0.93、0.94。

3.3 典型相关分析

  运行程序:

msa.cancor(data1[,1:5],data1[6:8],plot = T)

  运行结果:

图2 第一对典型变量得分平面等值图

## $cor 
## CR Q P 
## 1 0.9838 145.635 0.0000 
## 2 0.9202 55.728 0.0000 
## 3 0.5733 9.364 0.0248 
## 
## $xcoef 
## x1 x2 x3 x4 x5 
## u1 0.0012 0.0196 0.0810 0.0684 0.0312 
## u2 -0.0063 -0.0151 0.0294 0.2190 -0.2388 
## u3 0.0947 -0.1909 -0.2126 0.1112 0.2986 
## 
## $ycoef 
## y1 y2 y3 
## v1 -0.0142 0.1318 0.0636 
## v2 0.0582 0.3900 -0.4360 
## v3 0.2779 -0.4495 0.2687

  经检验在 0.05 的显著性水平上,有三组典型相关是显著的,即需 要三组典型变量,根据运行结果可得出前三对典型变量的线性组合为:

image.png

3.4 对结果进行经济意义分析

  (1)由运行结果显示:CR1=0.9838,说明u1v1 之间存在高度相 关关系,且各自的变量组合中的系数大多为正号,因此一般来说,各 类投资资金越多,我国各产业生产总值增加值越多。

  (2)在第一对典型变量 u1v1 中,u1 为 2006 年全国各类投资资金 的线性组合,其中x3 (利用外资)、 x4 (自筹资金)较其它变量有较大 载荷,说明外资和自筹资金在投资资金中占主导地位; v1是三大产业增 加值的线性组合,其中y2 (第二产业增加值)的载荷相对较大,说明 x3 (利用外资)、 x4 (自筹资金)与 y2 (第二产业增加值)有较为密切 的关系,以外资和自筹资金为代表的投资类别对经济的促进作用主要 体现在第二产业的增长上,即要保持第二产业的快速增长,那么外资 和自筹资金必须有充足的供应。

   (3)在第二对典型变量中,在投资类别指标的线性组合中, x4 (自筹资金)、 x5 (其它资金来源)较其它变量系数有较大载荷,说 明自筹资金和其它资金来源是投资的主要指标它们在投资中占主导地 位;而在生产总值指标中,以 y3 (第三产业增加值)的载荷最大,说明第三产业的增加值与自筹资金、其它资金来源有着密切关系,其中自筹资金的增长对第三产业的发展有着抑制作用,相反,其它资金的 投资增加对第三产业的发展有着积极作用。

  (4)在第三对典型变量中, x3(利用外资)、 $x_5 (其它资金来源) 在投资类别指标中相对其它变量占较大载荷,说明外资和其它资金来 源占主导地位;在生产总值指标中第二产业的载荷最大,说明第二产业 与以外资和其它资金来源作为投资形式的关系有着密切关系,再次说 明了外资的增加对第二产业的发展有着积极作用,但其它来源的资金 对于第二产业的发展有着较为明显的抑制效果。

   (5)从上面三对典型变量中可以看出,在投资形式上,外资、自 筹资金及其它来源资金的投资形式占据主导地位,在此投资模式下, 对第二产业发展动向往往有着较为明显的关系。其中外资形式的投资 方式与第二产业有着同向变动关系,其它来源的投资形式与第三产业 有着同向变动关系,结合实际情况来说,“十五”期间,我国对外贸 易持续快速发展,“科技兴贸”、“以质取胜”和“走出去”战略取 得新的进展。对外贸易结构逐步改善、质量效益逐步提高,为第二产 业创造了大量就业机会,极大的促进了第二产业的发展。

  (6)将原始数据代入第一对典型变量中,得到典型变量第一对典 型变量 u1v1 的得分平面等值图(如图 2 所示),从图 2 可以看出,散 点近似的分布在一条直线上,两者呈线性相关关系,说明用典型相关 分析的方法能较好地说明投资于产业增长之间的相关关系。散点图上 几乎没有离异点,这表明投资量与产业增长量之间的关系很稳定,波 动也非常平稳。


相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
55 3
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
|
7月前
|
数据可视化
【R语言实战】——金融时序分布拟合
【R语言实战】——金融时序分布拟合
【R语言实战】——fGARCH包在金融时序上的模拟应用
【R语言实战】——fGARCH包在金融时序上的模拟应用
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
下一篇
DataWorks