机器学习之二:回归分析
如果想了解更多的知识,可以去我的机器学习之路 The Road To Machine Learning通道
1. 基本概念
我们首先了解一下关于回归的基本概念。
因变量(dependent variable)是函数中的专业名词,函数关系式中,某些特定的数会随另一个(或另几个)会变动的数的变动而变动,就称为因变量。如:Y=f(X)。此式表示为:Y随X的变化而变化。Y是因变量,X是自变量。
自变量(Independent variable)一词来自数学。在数学中,y=f(x)。在这一方程中自变量是x,因变量是y。将这个方程运用到心理学的研究中,自变量是指研究者主动操纵,而引起因变量发生变化的因素或条件,因此自变量被看作是因变量的原因。自变量有连续变量和类别变量之分。如果实验者操纵的自变量是连续变量,则实验是函数型实验。如实验者操纵的自变量是类别变量,则实验是因素型的。在心理学实验中,一个明显的问题是要有一个有机体作为被试对刺激作反应。显然,这里刺激变量就是自变量。
变量间的关系:
1)变量间有完全确定的关系:函数关系式
2)变量间有一定的关系,无法用函数形式表示出来,为研究这类变量之间的关系就需要通过大量试验或观测获得数据,用统计方法去寻找它们间的关系,这种关系反映了变量间的统计规律,研究这类统计规律的方法之一就是回归分析。
回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归(Linear Regression)中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多元线性回归分析。
回归分析实际上就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测。
2. 主要算法
目前的回归算法中,只要有以下几种算法。
线性回归(Linear Regression)
普通最小二乘回归(Ordinary Least Squares Regression,OLSR)
逻辑回归(Logistic Regression)
逐步回归(Stepwise Regression)
岭回归(Ridge Regression)
LASSO回归(Least Absolute Shrinkage and Selection Operator)
ElasticNet回归
优点:直接、快速、知名度高
缺点:要求严格的假设 需要处理异常值
2.1 线性回归(Linear Regression)
线性回归用最适直线(回归线)去建立因变量Y和一个或多个自变量X之间的关系。可以用公式来表示:Y=a+b*X+e
a为截距,b为回归线的斜率,e是误差项。如何找到那条回归线?我们可以通过最小二乘法把这个问题解决。其实最小二乘法就是线性回归模型的损失函数,只要把损失函数做到最小时得出的参数,才是我们最需要的参数。
2.2 普通最小二乘 (OLS) 回归
在 OLS 回归中,估计方程可通过确定将样本的数据点与由方程预测的值之间的距离平方和最小化的方程计算得出。
应该满足的 OLS 假定
仅当满足以下假定时,OLS 回归才会提供最精确的无偏估计值。
1) 回归模型的系数为线性系数。最小二乘可通过变换变量(而不是系数)来为曲率建模。您必须指定适当的函数形式才能正确地为任何曲率建模。
在此,对预测变量 X 进行了平方计算以便为曲率建模。
2) 残差的均值为零。模型中包含常量将迫使均值等于零。
3) 所有预测变量都与残差不相关。
4) 残差与残差之间不相关(序列相关)。
5) 残差具有恒定方差。
6) 任何预测变量都不与其他预测变量完全相关 (r=1)。最好也避免不完全的高度相关(多重共线性)。
7) 残差呈正态分布。
由于仅当所有这些假定都满足时,OLS 回归才会提供最佳估计值,因此检验这些假定极为重要。 常用方法包括检查残差图、使用失拟检验以及使用方差膨胀因子 (VIF) 检查预测变量之间的相关性。
2.3 逻辑回归(Logistic Regression)
逻辑回归(logistic analysis)就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型。Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。
2.4 逐步回归(Stepwise Regression)
在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它的主要思路是在考虑的全部自变量中按其对的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对作用不显著的变量可能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行检验, 以保证在引人新变量前回归方程中只含有对影响显著的变量, 而不显著的变量已被剔除。
2.5 岭回归(Ridge Regression)
岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
2.6 LASSO回归(Least Absolute Shrinkage and Selection Operator)
Lasso也是通过惩罚其回归系数的绝对值。与岭回归不同的是,Lasso回归在惩罚方程中用的是绝对值,而不是平方。这就使得惩罚后的值可能会变成0.
2.7 ElasticNet回归
ElasticNet回归是Lasso回归和岭回归的组合。它会事先训练L1和L2作为惩罚项。当许多变量是相关的时候,Elastic-net是有用的。Lasso一般会随机选择其中一个,而Elastic-net则会选在两个。与Lasso和岭回归的利弊比较,一个实用的优点就是Elastic-Net会继承一些岭回归的稳定性。
3. 如何选用回归模型
面对如此多的回归模型,最重要的是根据自变量因变量的类型、数据的维数和其他数据的重要特征去选择最合适的方法。以下是我们选择正确回归模型时要主要考虑的因素:
1.数据探索是建立预测模型不可或缺的部分。它应该是在选择正确模型之前要做的。
2.为了比较不同模型的拟合程度,我们可以分析不同的度量,比如统计显著性参数、R方、调整R方、最小信息标准、BIC和误差准则。另一个是Mallow‘s Cp准则。
3.交叉验证是验证预测模型最好的方法。你把你的数据集分成两组:一组用于训练,一组用于验证。
4.如果你的数据集有许多让你困惑的变量,你就不应该用自动模型选择方法,因为你不想把这些变量放在模型当中。
5.不强大的模型往往容易建立,而强大的模型很难建立。
6.回归正则方法在高维度和多重共线性的情况下表现的很好。
每日一句
忘掉今天的人将被明天忘掉。——歌德
Forget today will be forgotten tomorrow。