机器学习:李航-统计学习方法笔记(一)监督学习概论

简介: 机器学习:李航-统计学习方法笔记(一)监督学习概论

1.1统计学习

4ef4fe4e825d429abb17986566662db8.png


统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。也可以说统计学习就是计算机系统通过运用数据及统计方提高系统性能的机器学习。故统计学习也称为统计机器学习。


统计学习的目的在于从假设空间中选取最优模型。


统计学习的对象是数据,数据分为由连续变量和离散变量表示的类型,其中同类数据是指具有某种共同性质的数据。在统计学习的过程中,以变量或者是变量组表示数据。


统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。


统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。统计学习方法的三要素:模型、策略、算法        


统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。


1.2统计学习的分类


1.2.1基本分类


统计学习可以基本分类分为监督学习、无监督学习、强化学习、半监督学习、主动学习等。


  • 监督学习定义:


从标注数据中学习预测模型的机器学习问题,标注数据表示输入输出的对应关系,预测模型对给定输入产生相应的输出

本质:学习输入到输出的映射的统计规律


相关概念:


输入空间(input space):输入的所有可能的取值集合

输出空间(output space):输出的所有可能的取值集合

实例(instance):每个具体的输入,可由特征向量(feature vector)表示

特征空间(feature space):所有的特征向量存在的空间,特征空间中的每一维对应一个特征,特征空间是模型实际定义位置

假设空间:由输入空间到输出空间的映射的集合。

任务分类:


回归问题:输入变量和输出变量均为连续变量的预测问题。

分类问题:输出变量为有限个离散变量的预测问题。

标注问题:输入变量和输出变量均为变量序列的预测问题。

联合概率分布


监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。

P(X,Y)表示分布函数或分布密度函数,P(x,y)=P(X=x and Y=y)。

统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布就是监督学习关于数据的基本假设。

对于学习系统来说,联合概率分布是未知的。

训练数据和测试数据被看作是依联合分布概率分布P(X,Y)独立同分布产生的。

假设空间


监督学习目的是学习一个由输入到输出的映射,称为模型

模式的集合就是假设空间(hypothesis space)

概率模型:条件概率分布P(Y|X), 决策函数:Y=f(X)

问题形式化


1717d417cffa4a53b2e5e2d2e7dd9e82.png


无监督学习

定义


从无标注数据中学习预测模型的机器学习问题

无标注数据表示自然得到的数据。预测模型表示数据的类别、转换或概率

本质:学习数据中的统计规律或潜在结构

问题形式化


41f3ac74e67d487e8adb85904f33caf6.png


强化学习

定义


指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。

本质:学习最优的序贯决策

假设智能系统与环境的互动基于马尔代夫决策过程,智能系统观测到的时环境互动得到的数据序列。

强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组<S,A,P,r,γ>组成。

S是有限状态(state)的集合

A是有限动作(action)的集合

Р是状态转移概率(transition probability)函数:


f0d99198671f41d2919910dee4ef5344.png

r是奖励函数(reward function) :

106d621a099d4d3e9fa8eb138aff94bd.png

γ是衰减系数(discount factor ) : γ ∈ [0,1]

1467b1d198454457936afeea438298f8.png


马尔可夫决策过程具有马尔可夫性,下一个状态只依赖于前一个状态与动作,下一个奖励依赖于前一个状态与动作。

afbb5d88fecc49d79bc60ac00a41ab15.png


强化学习方法

无模型(model-free)

基于策略(policy-based):求解最优策略π*

基于价值(value-based):求解最优价值函数

有模型(model-based)

1. 通过学习马尔可夫决策过程的模型,包括转移概率函数和奖励函数

2. 通过模型对环境的反馈进行预测

3. 求解价值函数最大的策略π*


半监督学习


少量标注数据,大量未标注数据

利用未标注数据的信息,辅助标注数据,进行监督学习

较低成本

主动学习

机器主动给出实例,教师进行标注

利用标注数据学习预测模型


1.2.2按模型分类


概率模型和非概率模型

概率模型:决策树、贝叶斯网络、马尔科夫随机场、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型


非概率模型:感知机、支持向量机、k近邻、AdaBoost、K均值、潜在语义分析、神经网络


线性模型和非线性模型

参数化模型和非参数模型


1.2.3按算法分类


统计学习模型根据算法分为在线学习和批量学习。


45f8de26321442e5abf9962e2949f5f9.png


在线学习(online learning):每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习 。

批量学习(batch learning):一次接受所有的样本,学习模型,之后进行预测。


1.2.4按技巧分类


贝叶斯学习(Bayesian learning)

核方法(kernel method)


1.3统计学习的三要素


上面说到统计学习方法都是由模型、策略和算法构成的,所以三要素可以简单的表示为以下形式:


方法=模型+策略+算法


模型

模型就是所要学习的条件概率分布或者决策函数。


策略

损失函数:损失函数度量模型一次预测的好坏。

风险函数:风险函数度量平均意义下模型预测的好坏。

损失函数可以有以下几种:


6efb75ba54a2431286256ab9517d728e.png


损失函数值越小,模型就越好,学习的目标就是选择期望风险最小的模型。

监督学习的两个基本策略:经验风险最小化和结构风险最小化

经验风险或经验损失:模型f(X)关于训练数据集的平均损失

经验风险最小的模型是最优的模型,当样本容量足够大时,经验风险最小化能保证有很好的学习效果;当样本容量很小时,会产生“过拟合”现象。

结构风险最小化是为了防止过拟合而提出来的策略。


算法


统计学习方法总结为最优化问题。


算法是指线性模型的具体计算方法。


目录
打赏
0
0
0
0
271
分享
相关文章
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
170 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
自监督学习:引领机器学习的新革命
自监督学习的思想可以追溯到几年前,最早是在图像处理领域被提出。随着深度学习的快速发展,研究者们逐渐认识到未标注数据的巨大潜力。尤其是在大规模数据集的爆炸式增长下,获取标注数据的成本越来越高,而利用自监督学习的方法来减少对标注数据的依赖变得越来越重要。
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
256 6
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
529 13
机器学习算法的优化与改进:提升模型性能的策略与方法
自监督学习:机器学习的未来新方向
自监督学习(Self-Supervised Learning, SSL)是近年来机器学习领域的一个重要发展方向,迅速成为许多研究和应用的热点。与传统的监督学习不同,自监督学习利用未标注数据,通过设计自我生成标签的任务,帮助模型从数据中提取有用的特征。这种方法不仅减少了对大量人工标注数据的依赖,也极大地提高了模型在多种任务上的性能。
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
209 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
96 6
机器学习核心:监督学习与无监督学习
本文深入解析了机器学习中的监督学习与无监督学习,涵盖理论基础、应用场景及典型算法实现,如线性回归、决策树、K均值聚类和主成分分析,并通过代码示例加深理解。适合初学者和进阶者阅读。
224 5
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
329 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
183 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计

热门文章

最新文章