≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（四）-阿里云开发者社区

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（四）

2014-10-31 2051

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： <p style="margin-top:0px; margin-bottom:0.7em; padding-top:0px; padding-bottom:0px; color:rgb(102,102,102); font-family:verdana; font-size:14px; line-height:24.0000610351563px"> 照例继续本周笔记。这次我没啥废话了

照例继续本周笔记。这次我没啥废话了...

--------------笔记开始---------------

投影矩阵与消灭矩阵

首先是上次没证的若干OLS性质。基本都是公式。我就照抄原来econometrics做的笔记了。权当复习了...对计量有兴趣的、线性代数还不错的，建议去看《Microeconometrics- Methods and Applications》（?A. Colin Cameron / Pravin K. Trivedi ）。

先定义两个矩阵，这两个矩阵会在某种程度上save your life while learning econometrics...投影矩阵和消灭矩阵。

复习一下，OLS估计量是 β^=(X′X)−1X′Y，然后对应的Y估计量是Y^=Xβ^=X(X′X)−1X′Y。所以，我们定义投影矩阵P为P=X(X′X)−1X′，这样就有了Y^=PY。也就是说，我们对Y进行了一次投影，然后得到了一个估计值。当然定义投影矩阵并不仅仅是写起来比那堆X简单，而是投影矩阵本身有着一系列良好的性质。

我们先来看把P投在X上会怎么样。显然，PX=X(X′X)−1X′X=X，也就是说P不会改变X的值（本来就是把一个东西投到X上嘛~自己投自己怎么会有变化的嘛）。

然后呢，对P进行转置，则P′=(X(X′X)−1X′)′=P，所以接下来P2=P′P=X(X′X)−1X′X(X′X)−1X′=P。

再定义消灭矩阵M。很简单，我们定义M为M=I−P=I−X(X′X)−1X′，其中I为单位阵（对角线元素为1，其他为0）。这样M又有什么性质呢？显然MY=(I−P)Y=Y−Y^=ε，也就是说M对Y的效果是得到误差项。而与此同时，M对于X的作用就是MX=(I−P)X=X−X=0，所以称为消灭矩阵嘛。继续，进行转置，则M′=(I−P)′=I−P=M，所以我们还有M2=M′M=(I−P)(I−P)=I−P−P+P=I−P=M。

OLS估计值的方差

再次友情提醒，X不是随机变量，所以不要跟我纠结为什么没有条件期望公式之类的东西...

扰动项服从N(0,σ)时，或者大样本下，OLS估计量的方差为：

Var(β^)=E[(β^−β)(β^−β)′]=E[(X′X)−1X′ε][(X′X)−1X′ε]′=(X′X)−1E(εε′)=s21(X′X)−1

这里=s21为样本方差，所以其分布为： β^∼N(β,s21(X′X)−1)。这样一来，就有了一个t检验：

t=β−0s21(X′X)−1∼tN−K−1。

大样本下，就直接用正态检验好了。此外，如果我们进一步的有更多的同时检验的约束条件，那就是联合检验F。这个就不赘述了...

高斯-马尔可夫定理

顺便还证了一下高斯-马尔可夫定理...这个不像OLS，每次我可记不住他的证明，每次都是现翻书...

我就直接抄wiki了。

选择另外一个线性估计量β~=CY，然后C可以写为 (X′X)−1X′+D，则D为k*n的非空矩阵。

那么这个估计量β~的期望是：

E(CY)=E(((X′X)−1X′+D)(Xβ+ε))=((X′X)−1X′+D)Xβ+((X′X)−1X′+D)E(ε)0=(X′X)−1X′Xβ+DXβ=(Ik+DX)β.(1)(2)(3)(4)

所以，为了保证β~ 无偏，则必有DX=0 .

继续求方差：

V(β~)=V(CY)=CV(Y)C′=σ2CC′=σ2((X′X)−1X′+D)(X(X′X)−1+D′)=σ2((X′X)−1X′X(X′X)−1+(X′X)−1X′D′+DX(X′X)−1+DD′)=σ2(X′X)−1+σ2(X′X)−1(DX0)′+σ2DX0(X′X)−1+σ2DD′=σ2(X′X)−1V(β^)+σ2DD′.(5)(6)(7)(8)(9)

DD′是一个半正定矩阵，V(β~)肯定要比V(β^)大~得证。

变量选择与收缩方法

为了降低测试误差（减少函数的复杂度），有时候会放弃无偏性而进行变量选择。这里首先就是Ridge OLS（岭回归）。还是算一下这个东西好了。

岭回归就是对估计量另外加一个约束条件，所以很自然的想到拉格朗日乘子法。ridge regression的目标函数为，

β^=argmin∑(y−y^)2s.t.∑β^2≤k

可以重写为

β^=argmin(∑(y−y^)2+λ(β^2−k))

记L=∑(y−y^)2+λ(β^2−k)

这样我们就得到两个一阶条件：

∂L∂β=X′(Xβ^−Y)+λβ^=0和∂L∂λ=β^2−k=0，所以有：

β^=(X′X+λI)−1X′Y

这里还可以看出，λ的取值都是对应k的。

Lasso则是把L2改成L1，已经没有解析解了...

至于为什么叫收缩方法，可以将X进行奇异值分解，然后可以得出Y^ridge的方差将变小...我就不写证明了，感觉这一块儿讲的也不是很透彻。