≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(四)

简介: <p style="margin-top:0px; margin-bottom:0.7em; padding-top:0px; padding-bottom:0px; color:rgb(102,102,102); font-family:verdana; font-size:14px; line-height:24.0000610351563px"> 照例继续本周笔记。这次我没啥废话了

照例继续本周笔记。这次我没啥废话了...

--------------笔记开始---------------

投影矩阵与消灭矩阵

首先是上次没证的若干OLS性质。基本都是公式。我就照抄原来econometrics做的笔记了。权当复习了...对计量有兴趣的、线性代数还不错的,建议去看《Microeconometrics- Methods and Applications》(?A. Colin Cameron / Pravin K. Trivedi )。

先定义两个矩阵,这两个矩阵会在某种程度上save your life while learning econometrics...投影矩阵和消灭矩阵。

复习一下,OLS估计量是 β^=(XX)1XY,然后对应的Y估计量是Y^=Xβ^=X(XX)1XY。所以,我们定义投影矩阵P为P=X(XX)1X,这样就有了Y^=PY。也就是说,我们对Y进行了一次投影,然后得到了一个估计值。当然定义投影矩阵并不仅仅是写起来比那堆X简单,而是投影矩阵本身有着一系列良好的性质。

我们先来看把P投在X上会怎么样。显然,PX=X(XX)1XX=X,也就是说P不会改变X的值(本来就是把一个东西投到X上嘛~自己投自己怎么会有变化的嘛)。

然后呢,对P进行转置,则P=(X(XX)1X)=P,所以接下来P2=PP=X(XX)1XX(XX)1X=P

再定义消灭矩阵M。很简单,我们定义M为M=IP=IX(XX)1X,其中I为单位阵(对角线元素为1,其他为0)。这样M又有什么性质呢?显然MY=(IP)Y=YY^=ε,也就是说M对Y的效果是得到误差项。而与此同时,M对于X的作用就是MX=(IP)X=XX=0,所以称为消灭矩阵嘛。继续,进行转置,则M=(IP)=IP=M,所以我们还有M2=MM=(IP)(IP)=IPP+P=IP=M

OLS估计值的方差

再次友情提醒,X不是随机变量,所以不要跟我纠结为什么没有条件期望公式之类的东西...

扰动项服从N(0,σ)时,或者大样本下,OLS估计量的方差为:

Var(β^)=E[(β^β)(β^β)]=E[(XX)1Xε][(XX)1Xε]=(XX)1E(εε)=s21(XX)1

这里=s21为样本方差,所以其分布为: β^N(β,s21(XX)1)。这样一来,就有了一个t检验:

t=β0s21(XX)1tNK1

大样本下,就直接用正态检验好了。此外,如果我们进一步的有更多的同时检验的约束条件,那就是联合检验F。这个就不赘述了...

高斯-马尔可夫定理

顺便还证了一下高斯-马尔可夫定理...这个不像OLS,每次我可记不住他的证明,每次都是现翻书...

我就直接抄wiki了。

选择另外一个线性估计量β~=CY,然后C可以写为 (XX)1X+D,则D为k*n的非空矩阵。

那么这个估计量β~的期望是 :

E(CY)=E(((XX)1X+D)(Xβ+ε))=((XX)1X+D)Xβ+((XX)1X+D)E(ε)0=(XX)1XXβ+DXβ=(Ik+DX)β.(1)(2)(3)(4)

所以,为了保证β~ 无偏,则必有DX=0 .

继续求方差:

V(β~)=V(CY)=CV(Y)C=σ2CC=σ2((XX)1X+D)(X(XX)1+D)=σ2((XX)1XX(XX)1+(XX)1XD+DX(XX)1+DD)=σ2(XX)1+σ2(XX)1(DX0)+σ2DX0(XX)1+σ2DD=σ2(XX)1V(β^)+σ2DD.(5)(6)(7)(8)(9)

DD是一个半正定矩阵,V(β~)肯定要比V(β^)大~得证。

变量选择与收缩方法

为了降低测试误差(减少函数的复杂度),有时候会放弃无偏性而进行变量选择。这里首先就是Ridge OLS(岭回归)。还是算一下这个东西好了。

岭回归就是对估计量另外加一个约束条件,所以很自然的想到拉格朗日乘子法。ridge regression的目标函数为,

β^=argmin(yy^)2s.t.β^2k

可以重写为

β^=argmin((yy^)2+λ(β^2k))

L=(yy^)2+λ(β^2k)

这样我们就得到两个一阶条件:

Lβ=X(Xβ^Y)+λβ^=0Lλ=β^2k=0,所以有:

β^=(XX+λI)1XY

这里还可以看出,λ的取值都是对应k的。

Lasso则是把L2改成L1,已经没有解析解了...

至于为什么叫收缩方法,可以将X进行奇异值分解,然后可以得出Y^ridge的方差将变小...我就不写证明了,感觉这一块儿讲的也不是很透彻。

相关文章
|
6月前
|
机器学习/深度学习 算法 固态存储
【论文泛读】 Deep Learning 论文合集
【论文泛读】 Deep Learning 论文合集
|
机器学习/深度学习 自然语言处理 监控
Lecture 1:强化学习简介
Lecture 1:强化学习简介
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(15)| Stanford斯坦福 · 线性代数与矩阵方法导论课程『Introduction to Applied Linear Algebra』
快速补充线性代数的必选课程!课程用了非常多的例子和图标,来直观地表示向量、矩阵与复杂世界的关系,并将数学转化为解决工程问题的能力。
2291 1
全球名校AI课程库(15)| Stanford斯坦福 · 线性代数与矩阵方法导论课程『Introduction to Applied Linear Algebra』
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(1)--绪论
机器学习是目前信息技术中最激动人心的方向之一,其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。
129 0
周志华《Machine Learning》学习笔记(1)--绪论
|
人工智能 算法 搜索推荐
【推荐系统论文精读系列】(一)--Amazon.com Recommendations
推荐系统算法在电商网站现在已经被广泛使用,特们会使用关于用户兴趣的数据作为输入然后去产生一系列的推荐列表。一些应用只使用顾客购买的物品或者显示他们兴趣的数据,而且他们还会使用用户的其它属性,包括用户浏览过的物品,人口特征画像,感兴趣的话题和最喜爱的艺术家等。
347 0
|
机器学习/深度学习 资源调度 并行计算
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
|
机器学习/深度学习 存储 搜索推荐
【推荐系统论文精读系列】(二)--Factorization Machines
本篇论文中,作者介绍了一个新的分解模型Fatorization Machines(FM),它结合了支持向量机的一些优点。与SVM一样,FM模型是一个通用的预测分类器适用于任何真实值的向量。但是与SVM不同的是,FM通过使用分解参数的方式在不同变量之间进行建模。
284 0
|
机器学习/深度学习 人工智能 搜索推荐
【推荐系统论文精读系列】(十二)--Neural Factorization Machines for Sparse Predictive Analytics
现在很多基于网站应用的预测任务都需要对类别进行建模,例如用户的ID、性别和职业等。为了使用通常的机器学习预测算法,需要将这些类别变量通过one-hot将其转化成二值特征,这就会导致合成的特征向量是高度稀疏的。为了有效学习这些稀疏数据,关键就是要解释不同特征之间的影响。
377 0
|
机器学习/深度学习 人工智能 自然语言处理
吴恩达《Machine Learning》精炼笔记 11:推荐系统
吴恩达《Machine Learning》精炼笔记 11:推荐系统
210 0
吴恩达《Machine Learning》精炼笔记 11:推荐系统
|
机器学习/深度学习 算法
吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议
吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议
179 0
吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议