R语言逐步多元回归模型分析长鼻鱼密度影响因素

简介: R语言逐步多元回归模型分析长鼻鱼密度影响因素

目录

如何做多元回归

逐步回归选择模型

逐步程序

定义最终模型

方差分析

预测值图

检查模型的假设

模型拟合标准

将模型与似然比检验进行比较


我从马里兰州生物流调查中提取了一些数据,以进行多元回归分析。数据因变量是每75米长的水流中长鼻鱼(Rhinichthys cataractae)的数量。自变量是河流流失的面积(英亩);氧(毫克/升);水流段的最大深度(以厘米为单位);硝酸盐浓度(毫克/升);硫酸盐浓度(毫克/升);以及采样日期的水温(以摄氏度为单位)。


如何做多元回归

 

多重相关

数据集包含多个数字变量时,最好查看这些变量之间的相关性。原因之一是,可以轻松查看哪些自变量与该因变量相关。第二个原因是,如果要构建多元回归模型,则添加高度相关的自变量不太可能对模型有很大的改进。

 

最后,值得看一下数字变量的分布。如果分布差异很大,则使用Kendall或Spearman相关性可能更合适。同样,如果自变量与因变量的分布不同,则可能需要对自变量进行转换。


Data = read.table(textConnection(Input),header=TRUE)

library(dplyr)

Data.num = 
   select(Data,
          Longnose,
          Acerage,
          DO2,
          Maxdepth,
          NO3,
          SO4,
          Temp)

library(FSA)

headtail(Data.num)


   Longnose Acerage  DO2 Maxdepth  NO3   SO4 Temp

1        13    2528  9.6       80 2.28 16.75 15.3

2        12    3333  8.5       83 5.34  7.74 19.4

3        54   19611  8.3       96 0.99 10.92 19.5

66       20    4106 10.0       96 2.62  5.45 15.4

67       38   10274  9.3       90 5.45 24.76 15.0

68       19     510  6.7       82 5.25 14.19 26.5

 

 

library(psych)

corr.test(Data.num, 
          use = "pairwise",
          method="pearson",
          adjust="none",     # Can adjust p-values; see ?p.adjust for options
          alpha=.05)

 

Correlation matrix

         Longnose Acerage   DO2 Maxdepth   NO3   SO4  Temp

Longnose     1.00    0.35  0.14     0.30  0.31 -0.02  0.14

Acerage      0.35    1.00 -0.02     0.26 -0.10  0.05  0.00

DO2          0.14   -0.02  1.00    -0.06  0.27 -0.07 -0.32

Maxdepth     0.30    0.26 -0.06     1.00  0.04 -0.05  0.00

NO3          0.31   -0.10  0.27     0.04  1.00 -0.09  0.00

SO4         -0.02    0.05 -0.07    -0.05 -0.09  1.00  0.08

Temp         0.14    0.00 -0.32     0.00  0.00  0.08  1.00

Sample Size

 

Probability values (Entries above the diagonal are adjusted for multiple tests.)

         Longnose Acerage  DO2 Maxdepth  NO3  SO4 Temp

Longnose     0.00    0.00 0.27     0.01 0.01 0.89 0.26

Acerage      0.00    0.00 0.86     0.03 0.42 0.69 0.98

DO2          0.27    0.86 0.00     0.64 0.02 0.56 0.01

Maxdepth     0.01    0.03 0.64     0.00 0.77 0.69 0.97

NO3          0.01    0.42 0.02     0.77 0.00 0.48 0.99

SO4          0.89    0.69 0.56     0.69 0.48 0.00 0.52

Temp         0.26    0.98 0.01     0.97 0.99 0.52 0.00

 

 



逐步回归选择模型

使用AIC(赤池信息标准)作为选择标准。可以使用选项k = log(n)代替BIC。


逐步程序


Longnose ~ 1



           Df Sum of Sq    RSS    AIC

+ Acerage   1   17989.6 131841 518.75

+ NO3       1   14327.5 135503 520.61

+ Maxdepth  1   13936.1 135894 520.81

<none>                  149831 525.45

+ Temp      1    2931.0 146899 526.10

+ DO2       1    2777.7 147053 526.17

+ SO4       1      45.3 149785 527.43

.

.

< snip... more steps >

.

.

Longnose ~ Acerage + NO3 + Maxdepth



           Df Sum of Sq    RSS    AIC

<none>                  107904 509.13

+ Temp      1    2948.0 104956 509.24

+ DO2       1     669.6 107234 510.70

- Maxdepth  1    6058.4 113962 510.84

+ SO4       1       5.9 107898 511.12

- Acerage   1   14652.0 122556 515.78

- NO3       1   16489.3 124393 516.80



Call:

lm(formula = Longnose ~ Acerage + NO3 + Maxdepth, data = Data)



Coefficients:

(Intercept)      Acerage          NO3     Maxdepth 

 -23.829067     0.001988     8.673044     0.336605 

定义最终模型


summary(model.final)      # Show coefficients, R-squared, and overall p-value



              Estimate Std. Error t value Pr(>|t|)  

(Intercept) -2.383e+01  1.527e+01  -1.560  0.12367  

Acerage      1.988e-03  6.742e-04   2.948  0.00446 **

Maxdepth     3.366e-01  1.776e-01   1.896  0.06253 .

NO3          8.673e+00  2.773e+00   3.127  0.00265 **



Multiple R-squared:  0.2798,  Adjusted R-squared:  0.2461

F-statistic: 8.289 on 3 and 64 DF,  p-value: 9.717e-05

方差分析


Anova Table (Type II tests)



Response: Longnose

          Sum Sq Df F value   Pr(>F)  

Acerage    14652  1  8.6904 0.004461 **

Maxdepth    6058  1  3.5933 0.062529 .

NO3        16489  1  9.7802 0.002654 **

Residuals 107904 64

预测值图

 

 


 

检查模型的假设

 

 


线性模型中残差的直方图。这些残差的分布应近似正态。

 

 

 


 

残差与预测值的关系图。残差应无偏且均等。

 

 

           

 

模型拟合标准

模型拟合标准可用于确定最合适的模型。使用AIC或可选的BIC。AICc是对AIC的一种调整,它更适合于观测值相对较少的数据集。AIC,AICc和BIC越小越好。


在下面的例子中,我们只讨论了显著相关的种植面积MAXDEPTHNO3


$Models

   Formula                                    

1  "Longnose ~ Acerage"                       

2  "Longnose ~ Maxdepth"                      

3  "Longnose ~ NO3"                           

4  "Longnose ~ Acerage + Maxdepth"            

5  "Longnose ~ Acerage + NO3"                 

6  "Longnose ~ Maxdepth + NO3"                

7  "Longnose ~ Acerage + Maxdepth + NO3"      

8  "Longnose ~ Acerage + Maxdepth + NO3 + DO2"

9  "Longnose ~ Acerage + Maxdepth + NO3 + SO4"

10 "Longnose ~ Acerage + Maxdepth + NO3 + Temp"  



$Fit.criteria

   Rank Df.res   AIC  AICc   BIC R.squared Adj.R.sq   p.value Shapiro.W Shapiro.p

1     2     66 713.7 714.1 720.4   0.12010  0.10670 3.796e-03    0.7278 6.460e-10

2     2     66 715.8 716.2 722.4   0.09301  0.07927 1.144e-02    0.7923 2.115e-08

3     2     66 715.6 716.0 722.2   0.09562  0.08192 1.029e-02    0.7361 9.803e-10

4     3     65 711.8 712.4 720.6   0.16980  0.14420 2.365e-03    0.7934 2.250e-08

5     3     65 705.8 706.5 714.7   0.23940  0.21600 1.373e-04    0.7505 2.055e-09

6     3     65 710.8 711.4 719.6   0.18200  0.15690 1.458e-03    0.8149 8.405e-08

7     4     64 704.1 705.1 715.2   0.27980  0.24610 9.717e-05    0.8108 6.511e-08

8     5     63 705.7 707.1 719.0   0.28430  0.23890 2.643e-04    0.8041 4.283e-08

9     5     63 706.1 707.5 719.4   0.27990  0.23410 3.166e-04    0.8104 6.345e-08

10    5     63 704.2 705.6 717.5   0.29950  0.25500 1.409e-04    0.8225 1.371e-07

 

几个模型的AICc(修改后的Akaike信息标准)图。模型7最小化了AICc,因此被选为该模型中的最佳模型。

 

 

将模型与似然比检验进行比较

将模型与 平方和检验或似然比检验进行比较,以查看是否有其他项显着减少平方误差和 。


Analysis of Variance Table



Model 1: Longnose ~ Acerage + Maxdepth + NO3

Model 2: Longnose ~ Acerage + Maxdepth



  Res.Df    RSS Df Sum of Sq      F   Pr(>F)  

1     64 107904                               

2     65 124393 -1    -16489 9.7802 0.002654 **





Likelihood ratio test



Model 1: Longnose ~ Acerage + Maxdepth + NO3

Model 2: Longnose ~ Acerage + Maxdepth



  #Df  LogLik Df  Chisq Pr(>Chisq)  

1   5 -347.05                       

2   4 -351.89 -1 9.6701   0.001873 **





Model 1: Longnose ~ Acerage + Maxdepth + NO3 + DO2

Model 2: Longnose ~ Acerage + Maxdepth + NO3 + SO4

Model 3: Longnose ~ Acerage + Maxdepth + NO3 + Temp

Model A: Longnose ~ Acerage + Maxdepth + NO3



    DfO      RSSO DfA      RSSA Df        SS      F Pr(>F)

1vA  63 107234.38  64 107903.97 -1   -669.59 0.3934 0.5328

2vA  63 107898.06  64 107903.97 -1     -5.91 0.0035 0.9533

3vA  63 104955.97  64 107903.97 -1  -2948.00 1.7695 0.1882






Model 1: Longnose ~ Acerage + Maxdepth + NO3 + DO2

Model 2: Longnose ~ Acerage + Maxdepth + NO3 + SO4

Model 3: Longnose ~ Acerage + Maxdepth + NO3 + Temp

Model A: Longnose ~ Acerage + Maxdepth + NO3



    DfO    logLikO DfA    logLikA Df     logLik  Chisq Pr(>Chisq)

1vA  63 -346.83881  64 -347.05045 -1    0.21164 0.4233     0.5153

2vA  63 -347.04859  64 -347.05045 -1    0.00186 0.0037     0.9513

3vA  63 -346.10863  64 -347.05045 -1    0.94182 1.8836     0.1699
相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
55 3
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
3月前
|
机器学习/深度学习 算法 前端开发
R语言基础机器学习模型:深入探索决策树与随机森林
【9月更文挑战第2天】决策树和随机森林作为R语言中基础且强大的机器学习模型,各有其独特的优势和适用范围。了解并熟练掌握这两种模型,对于数据科学家和机器学习爱好者来说,无疑是一个重要的里程碑。希望本文能够帮助您更好地理解这两种模型,并在实际项目中灵活应用。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
4月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
89 3
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为