机器学习方法三要素-3| 学习笔记

简介: 快速学习机器学习方法三要素-3。

开发者学堂课程【机器学习算法 :机器学习方法三要素-3】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7170


机器学习方法三要素-3

 

内容介绍

一、经验风险( Empirical Risk)

二、风险函数( Risk Function)

三、经验风险 vs 期望风险

四、经验风险的问题

五、那么经验风险低预测模型就一定会好吗?

六、结构风险

七、结构风险 vs 经验风险

 

一、经验风险( Empirical Risk)

损失函数度量了单个样本的预测结果,要想衡量整个训练集的预

测值与真实值的差异,将整个训练集所有记录均进行一次预测,求取损失函数,将所有值累加,即为经验风险。经验风险越小说明模型 f(x)对训练集的拟合程度越好。

公式为:图片24.png

 

二、风险函数( Risk Function)

又称期望损失、期望风险。所有数据集(包括训练集和预测集,遵循联合分布 P(XY))的损失西数的期望值。

公式为:

图片25.png

 

三、经验风险 vs 期望风险

1、期望风险是模型对全局(所有数据集)的效果,即将发生:经验风险是模型对局部(训练集)的效果。

2、 期望风险往往无法计算,即联合分布 P(X,Y)通常是未知的;经验风险可以计算

3、当训练集足够大时,经验风险可以替代期望风险,即局部最优代替全局最优(实际上如果可以计算期望风险,期望风险对我们做判断是最佳的)经验风险是针对已有的样本计算,但是已有的样本是局部数据,得到的只是局部最优。

 

四、经验风险的问题

在样本较小时,仅关注经验风险,很容易导致过拟合。

过拟合:对当前的样本数据特别好,但是如果遇到新的数据集,预测效果很差,这就叫做过拟合。

图片26.png

一次模型:y = 1.0429x + 0.2571

二次模型:y=-0.0524x2 + 1.4619x - 0.3714

四次横型:y = 0.0886x4 - 1.3904x3 + 7.275x2 - 13.303x + 8.6571

六次横型:y=-0.0289x6 + 0.73x5 - 7.1972x4 + 34.933x3 - 86.574x2 + 103.14x - 43.8

例如:我们有两个数据,一个x一个y,把这些点在图上画出来,可以看到大概分布状况。实际上对数据处理有经验,会知道通过曲线去拟合。

二次模型:看上去比经验风险更小。

四次模型:与每个点都比较接近。

六次模型:完美拟合每一个点。

按照这个逻辑来讲,经验风险最低的是六次模型。

 

五、那么经验风险低预测模型就一定会好吗?

在样本较小时,仅关注经验风险,很容易导致过拟合。

下图为所有的数据集。刚刚我们拿到的是已有的训练集。实际上我们还有预测集。需要把十条数据全部加起来,才可以预测数据。

图片27.png

一次函数是4.68,二次是4.79,四次是2.62,六次是2.15。按这个道理来讲,六次在样本风险表现出来的最小。似乎我们应该选择这个模型。

我们可以看到一次函数在预测值时是1.15,二次函数是3.68,四次函数是134.29,六次函数是782.35。综合起来看,一次函数在整个数据集来看,数据风险最低。六次函数的期望风险最高。这就表示产生了严重的过拟合。

图片28.png

大家可以看到,数据全集上面是训练集,下面是预测集,在没达到数据全集的情况下算的是经验风险,基于7条记录做的经验风险。实际上下面的预测集合起来叫做数据全集。在数据全集算出来的叫做死亡风险。实际上下面三条记录没有产生的时候,我们是得不到全局的期望风险的。所以我们得到的只是局部的自由解。这个时候非常容易导致过拟合。

 

六、结构风险

结构风险 ( Structural Risk):在经验风险的基础上,增加一个正则化项(Reguarizer) 或者叫做惩罚项,公式:

图片29.png

其中λ为一个大于0的系数,J(f)表示模型f(x)的复杂度。

不管是结构风险还是经验风险,值越大说明模型匹配的拟合程度越差。值越小表示拟合程度越好。在这个基础上加了一个正数,实际上风险值就会变大,不同的模型,复杂度不一样。惩罚力度就不一样。

 

七、结构风险 vs 经验风险

1、经验风险越小,模型决策函数越复杂,其包含的参数越多(回想一次函数和六次函数的例子)

2、当经验风险函数小到一定程度就出现了过拟合现象

3、防止过拟合现象的方式,就要降低决策函数的复杂度,让惩罚项j(f最小化

4、需要同时经验风险函数和模型决策函数的复杂度都达到最小化(首先来说这个模型对数据拟合还不错同时模型不可以太复杂)

5、把两个式子融合成一个式子得到结构风险函数然后对这个结构风险函数进行最小化。

相关文章
|
1月前
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
96 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
3月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
193 6
|
1月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
268 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
2月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
128 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
3月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
68 6
|
3月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
252 1
|
3月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
56 2
|
4月前
|
机器学习/深度学习 数据采集 数据挖掘
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
143 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
|
4月前
|
机器学习/深度学习
如何用贝叶斯方法来解决机器学习中的分类问题?
【10月更文挑战第5天】如何用贝叶斯方法来解决机器学习中的分类问题?
|
4月前
|
机器学习/深度学习 算法 API
机器学习入门(六):分类模型评估方法
机器学习入门(六):分类模型评估方法