机器学习方法三要素-4| 学习笔记

简介: 快速学习机器学习方法三要素-4。

开发者学堂课程【机器学习算法 :机器学习方法三要素-4】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7171


机器学习方法三要素-4

 

内容介绍

一、正则化项例子

二、正则化项

三、范数

 

一、正则化项例子

例如:再看一个例子:已知某数据集有6个特征值,在特征值和结果之间建立联系,去预测未知数据集上的结果。

选取绝对值损失西数 L(Y,f(x)=|Y-f(x)| 惩罚西数项选择 图片30.png

计算结构风险和经验风险:

图片31.png

⊙指参数的个数,复杂程度。

经验风险很好计算。经验风险就是每一个输入的损失函数的累加值。一元4.68,二元1.05,三元5.12,四元2.62,五元2.1,六元2.15.实际上二元是最好的。接着我们算srm,就会有一个惩罚项(上面的公式)。一元的 srm 是1.97,二元是2.04,三元是5.12,四元是31.09,五元是35.27,六元是276.71. 用 srm 作为最终选择模型的标准。我们就会选择一元。

用这些不同的模型来做预测时,一元的风险为1.15,二元3.41,三元4.75,四元134.29,五元419.21,六元782.35. 实际上一元的最合适。

在只知道训练集,不知道预测集时,如果根据经验风险判断,最好是二元。

如果加了惩罚项,看一下结构风险,一元的最好。但是如果按照经验风险,最好的是二元,二元最后的预测集是3.41. 并不是最好的。所以按照经验风险选择的,得到的模型在预测结论并不好。

如果根据结构风险选择,表现最好的是一元的,事实上在预测上一元的表现也是最好的。

为什么经验风险出来后,只看经验风险不看结构风险?

因为到现在为止,有了预测集就认为已经拿到数据全集,有了数据全集,经验风险就等于期望风险。事实上就只有这么多,不会再有新的记录,就可以根据经验风险来判断。

 

二、正则化项

正则化项(Regularizer):即惩函数,该项对模型向量进行惩罚,从而避免过拟合问题。正

则化方法会自动削弱不重要的特征变量,自动从许多的特征变量中”提取“重要的特征变量,减小特征变量的数量级。

图片32.png

之前的例子,选取损失函数为绝对值。入取值为 1,J 为各参数的平方和计算一下结构风险:

根据刚才的例子,我们来计算一下:

一次模型: y= 1.0429x +0.2571

六次模型:y=-0.0289x6 + 0.73x5 - 7.1972x4 + 34.933x3 - 86.574x2 + 103.14x - 43.8

图片33.png

计算它们的惩罚项。

图片34.png

一次模型:=1/7*4.68 + 1*1.0429 ≈ 1.7114(4.68是经验风险)

六次模型:=1/7*2.15+1(6个参数)*(|-0.0289|+|0732|+|-7.1972|+|34.933| + | - 86.574| + |103.14|) ≈  232.91。(整体看上去6次模型的惩罚项很大)

综合起来看一次模型的结构风险较小。一次模型会避过拟合现象。

 

三、范数

规则化函数  λJ(f)  有多种选择,一般地,它是模型复杂度的单调递增函数,模型越复杂,该函数的值就越大,惩罚力度相应的越大。常用模型的参数向量的范数。常用的有零范数、一范数、二范数、迹范数、Frobenius 范数和核范数等等。

图片35.png

范数( Norm):是数学中的一种基本概念,它定义在赋泛线性空间中 ,满足(1)非负性:②齐次性:③三角不等式等条件的量。常常用来度量向量的长度或者大小。

图片36.png

下面的 L0 常熟不太常见

L1 范数就是绝对值

图片37.png

LO 范数:非0的元素的个数。使用 LO 范数,期望参数大部分为0,即让参数是稀疏的。

11 范数:各个元素的绝对值之和,使用 L1 范数,会使参数稀疏(有些项直接会消失)。L1也被称为稀疏规则算子。

L2 范数:各元素的平方和求平方根,使得每个元素都很小,但不会等于0,而是接近0。

比如说有五项,通常的五项会保留,但是其中有一些项会被调的很小。

例如:有五项,使用 L0 范数来作为惩罚项,他可能将其中四项都作为0了;

如果使用 L1 范数,可能部分会为0;

如果使用 L2 范数,则五个可能在。但是可能几个会非常小,接近于0,不是等于0.

图片38.png

图片39.png

L2 就相当于两个圆相交的点,就是我们希望的那个点。在这个点上,实际横坐标和纵坐标都不为0.

但是对于绝对值来讲,图二。与风险函数相接的时候,发生在坐标轴上。X=0.

图片40.png

作为 L1 范数时,回归项一般。为 lasso 回归

L2 为 ridge 回归。

大家不必纠结细节,大家只需了解怎么判断一个模型的好坏,要有一些规则,根据期望风险值判断模型是好是坏。但是期望风险值除了训练数值之外,预测数据也要拿到。现实中基本不会发生。所以期望风险只是一个理想状态,能拿到一个全局最优值,是拿不到的。这时可以使用经验风险,经验风险在其中的训练值上效果最好,拟合效果最好。但是经验风险有他的问题。就是容易产生过拟合。为了避免,引入结构风险,在经验风险中增加一个惩罚项。

首先结构风险就等于经验风险加上惩罚项。经验风险保证的是训练集上拟合效果不错。

惩罚项是拟合效果不错但是不要基于太复杂的模型。

结构风险用来做选择模型的时候考虑两个因素,第一训练集不错,第二模型不能太复杂。

奥卡姆剃刀原则:得到的结果看上去很好但是前置条件越多,结论越不可靠。这个模型在训练集上表现的很重要。但是模型不能太过复杂。不要依赖过多的项。否则模型是不可靠的。

后续我们还会讲惩罚项。

相关文章
|
1天前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
20 1
|
13天前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
22 2
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
64 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
|
1月前
|
机器学习/深度学习
如何用贝叶斯方法来解决机器学习中的分类问题?
【10月更文挑战第5天】如何用贝叶斯方法来解决机器学习中的分类问题?
|
1月前
|
机器学习/深度学习 算法 API
机器学习入门(六):分类模型评估方法
机器学习入门(六):分类模型评估方法
|
1月前
|
机器学习/深度学习 算法 数据挖掘
机器学习入门(二):如何构建机器学习模型,机器学习的三要素,欠拟合,过拟合
机器学习入门(二):如何构建机器学习模型,机器学习的三要素,欠拟合,过拟合
|
1月前
|
机器学习/深度学习 算法 搜索推荐
机器学习入门(四):距离度量方法 归一化和标准化
机器学习入门(四):距离度量方法 归一化和标准化
|
2月前
|
机器学习/深度学习 Python
验证集的划分方法:确保机器学习模型泛化能力的关键
本文详细介绍了机器学习中验证集的作用及其划分方法。验证集主要用于评估模型性能和调整超参数,不同于仅用于最终评估的测试集。文中描述了几种常见的划分方法,包括简单划分、交叉验证、时间序列数据划分及分层抽样划分,并提供了Python示例代码。此外,还强调了在划分数据集时应注意随机性、数据分布和多次实验的重要性。合理划分验证集有助于更准确地评估模型性能并进行有效调优。
|
2月前
|
机器学习/深度学习 算法 搜索推荐
机器学习方法之强化学习
强化学习是一种机器学习方法,旨在通过与环境的交互来学习如何做出决策,以最大化累积的奖励。
60 4
|
3月前
|
机器学习/深度学习 算法 Python
【机器学习】面试问答:决策树如何进行剪枝?剪枝的方法有哪些?
文章讨论了决策树的剪枝技术,包括预剪枝和后剪枝的概念、方法以及各自的优缺点。
59 2

热门文章

最新文章