台湾大学林轩田机器学习基石课程学习笔记6 -- Theory of Generalization

简介: 上一节课,我们主要探讨了当M的数值大小对机器学习的影响。

上一节课,我们主要探讨了当M的数值大小对机器学习的影响。如果M很大,那么就不能保证机器学习有很好的泛化能力,所以问题转换为验证M有限,即最好是按照多项式成长。然后通过引入了成长函数mH(N)和dichotomy以及break point的概念,提出2D perceptrons的成长函数mH(N)是多项式级别的猜想。这就是本节课将要深入探讨和证明的内容。


一、Restriction of Break Point


我们先回顾一下上节课的内容,四种成长函数与break point的关系:

image.png

下面引入一个例子,如果k=2,那么当N取不同值的时候,计算其成长函数mH(N)是多少。很明显,当N=1时,mH(N)=2,;当N=2时,由break point为2可知,任意两点都不能被shattered(shatter的意思是对N个点,能够分解为2N种dichotomies);mH(N)最大值只能是3;当N=3时,简单绘图分析可得其mH(N)=4,即最多只有4种dichotomies。

image.png

所以,我们发现当N>k时,break point限制了mH(N)值的大小,也就是说影响成长函数mH(N)的因素主要有两个:

image.png

那么,如果给定N和k,能够证明其mH(N)的最大值的上界是多项式的,则根据霍夫丁不等式,就能用mH(N)代替M,得到机器学习是可行的。所以,证明mH(N)的上界是poly(N),是我们的目标。

image.png


二、Bounding Function: Basic Cases


现在,我们引入一个新的函数:bounding function,B(N,k)。Bound Function指的是当break point为k的时候,成长函数mH(N)可能的最大值。也就是说B(N,k)是mH(N)的上界,对应mH(N)最多有多少种dichotomy。那么,我们新的目标就是证明:


image.png

这里值得一提的是,B(N,k)的引入不考虑是1D postive intrervals问题还是2D perceptrons问题,而只关心成长函数的上界是多少,从而简化了问题的复杂度。image.pngimage.png


三、Bounding Function: Inductive Cases


N > k的情况较为复杂,下面给出推导过程:

以B(4,3)为例,首先想着能否构建B(4,3)与B(3,x)之间的关系。

首先,把B(4,3)所有情况写下来,共有11组。也就是说再加一种dichotomy,任意三点都能被shattered,11是极限。

image.png

对这11种dichotomy分组,目前分成两组,分别是orange和purple,orange的特点是,x1,x2和x3是一致的,x4不同并成对,例如1和5,2和8等,purple则是单一的,x1,x2,x3都不同,如6,7,9三组。

image.png

将Orange去掉x4后去重得到4个不同的vector并成为α,相应的purple为β。那么B(4,3)=2α+β,这个是直接转化。紧接着,由定义,B(4,3)是不能允许任意三点shatter的,所以由α和β构成的所有三点组合也不能shatter(alpha经过去重),即α+β≤B(3,3)。

image.png

另一方面,由于α中x4是成对存在的,且α是不能被任意三点shatter的,则能推导出α是不能被任意两点shatter的。这是因为,如果α是不能被任意两点shatter,而x4又是成对存在的,那么x1、x2、x3、x4组成的α必然能被三个点shatter。这就违背了条件的设定。这个地方的推导非常巧妙,也解释了为什么会这样分组。此处得到的结论是α≤B(3,2)

image.png

image.png

image.png

上述不等式的右边是最高阶为k-1的N多项式,也就是说成长函数mH(N)的上界B(N,K)的上界满足多项式分布poly(N),这就是我们想要得到的结果。


得到了mH(N)的上界B(N,K)的上界满足多项式分布poly(N)后,我们回过头来看看之前介绍的几种类型它们的mH(N)与break point的关系:

image.png

四、A Pictorial Proof


我们已经知道了成长函数的上界是poly(N)的,下一步,如果能将mH(N)代替M,代入到Hoffding不等式中,就能得到Eout≈Ein的结论:

image.png

image.png

image.png

image.png

这部分内容,我也只能听个大概内容,对具体的证明过程有兴趣的童鞋可以自行研究一下,研究的结果记得告诉一下我哦。

最终,我们通过引入成长函数mH,得到了一个新的不等式,称为Vapnik-Chervonenkis(VC) bound:

image.png


五、总结


本节课我们主要介绍了只要存在break point,那么其成长函数mH(N)就满足poly(N)。推导过程是先引入mH(N)的上界B(N,k),B(N,k)的上界是N的k-1阶多项式,从而得到mH(N)的上界就是N的k-1阶多项式。然后,我们通过简单的三步证明,将mH(N)代入了Hoffding不等式中,推导出了Vapnik-Chervonenkis(VC) bound,最终证明了只要break point存在,那么机器学习就是可行的。

相关文章
|
4月前
|
机器学习/深度学习 Python
训练集、测试集与验证集:机器学习模型评估的基石
在机器学习中,数据集通常被划分为训练集、验证集和测试集,以评估模型性能并调整参数。训练集用于拟合模型,验证集用于调整超参数和防止过拟合,测试集则用于评估最终模型性能。本文详细介绍了这三个集合的作用,并通过代码示例展示了如何进行数据集的划分。合理的划分有助于提升模型的泛化能力。
|
8月前
|
机器学习/深度学习 数据采集 数据可视化
【机器学习】样本、特征、标签:构建智能模型的三大基石
【机器学习】样本、特征、标签:构建智能模型的三大基石
3385 0
|
机器学习/深度学习 索引
cs224w(图机器学习)2021冬季课程学习笔记11 Theory of Graph Neural Networks
cs224w(图机器学习)2021冬季课程学习笔记11 Theory of Graph Neural Networks
cs224w(图机器学习)2021冬季课程学习笔记11 Theory of Graph Neural Networks
|
机器学习/深度学习 数据挖掘
干货|机器学习基石精选文章链接
下面这部分内容列出了机器学习基石的精选文章。
206 0
干货|机器学习基石精选文章链接
|
机器学习/深度学习
台湾大学林轩田机器学习基石课程学习笔记16(完结) -- Three Learning Principles
上节课我们讲了一个机器学习很重要的工具——Validation。
136 0
台湾大学林轩田机器学习基石课程学习笔记16(完结) -- Three Learning Principles
|
机器学习/深度学习 算法
台湾大学林轩田机器学习基石课程学习笔记15 -- Validation
上节课我们主要讲了为了避免overfitting,可以使用regularization方法来解决。
168 0
台湾大学林轩田机器学习基石课程学习笔记15 -- Validation
|
机器学习/深度学习
台湾大学林轩田机器学习基石课程学习笔记14 -- Regularization
上节课我们介绍了过拟合发生的原因并介绍了解决overfitting的简单方法。本节课,我们将介绍解决overfitting的另一种非常重要的方法:Regularization规则化。
159 0
台湾大学林轩田机器学习基石课程学习笔记14 -- Regularization
|
机器学习/深度学习
台湾大学林轩田机器学习基石课程学习笔记13 -- Hazard of Overfitting
上节课我们主要介绍了非线性分类模型,通过非线性变换,将非线性模型映射到另一个空间,转换为线性模型,再来进行分类,分析了非线性变换可能会使计算复杂度增加。
165 0
台湾大学林轩田机器学习基石课程学习笔记13 -- Hazard of Overfitting
|
机器学习/深度学习 算法 数据挖掘
干货 | 林轩田机器学习「基石+技法」历史文章汇总
干货 | 林轩田机器学习「基石+技法」历史文章汇总
172 0
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
146 4