1.1 统计学习
统计学习方法的步骤
得到一个有限的训练数据集合
确定学习模型的集合
确定模型选择的准则
实现求解最优模型的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析
1.2 统计学习方法的分类
基本分类
监督学习
无监督学习
强化学习
按模型分类
概率模型和非概率模型
线性模型和非线性模型
参数化模型和非参数化模型
按技巧分类
贝叶斯学习
核方法
按算法分类
在线学习
批量学习
1.2.1 基本分类
监督学习:
监督学习(Supervised learning) 是指从标注数据中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律
输入空间
输入的所有可能取值的集合
实例(instance)
每一个具体的输入,通常由特征向量(Feature vector)表示
特征空间
所有特征向量存在的空间
输出空间
输出的所有可能的集合
根据变量类型的不同:
输入变量与输出变量为连续变量的预测问题 回归问题
输出变量为有限个离散变量的预测问题 分类问题
输入变量与输出变量均为变量序列的预测问题 标注问题
监督学习的基本假设:X 和 Y 具有联合概率分布 P(X,Y)
监督学习的目的:学习一个输入到输出的映射,这一映射以模型表示
模型的形式:条件概率分布P(Y∣X)或决策函数 Y=f(X)
假设空间:所有这些可能模型的集合
监督学习的流程图:
示
模型的形式:条件概率分布P(Y∣X)或决策函数 Y=f(X)
假设空间:所有这些可能模型的集合
监督学习的流程图: