前言
以下内容源自课堂PPT及博客
仅供学习交流使用
导航
推荐
期末复习
1 ML:概述
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据(经验)中产生“模型”,用于对新的情况给出判断(利用此模型预测未来的一种方法)。
一般流程
基本术语
数据集:一组样本的集合,这组记录的集合。
样本/示例:数据的特定实例,每条记录是关于一个事件或对象(这里是一个西瓜)的描述
特征/属性:反映事件或对象在某方面的表现或性质的事项
属性空间/样本空间/输入空间:属性张成的空间
维数:每个示例由d 个属性描述,d称为样本的"维数"。
训练数据:.训练过程中使用的数据称为"训练数据" (从数据中学得模型的过程称为"学习" 或"训练")
训练样本:每个样本称为一个训练样本"
训练集:训练样本组成的集合称为"训练集"
标记:关于示例结果的信息,例如"好瓜"。
样例:拥有了标记信息的示例
真相(ground-truth):数据的潜在的某种规律
假设(hypothesis):学得模型对应了关于数据的某种潜在规律
测试:学得模型后,使用其进行预测得过程
测试集:测试样本组成得集合
泛化能力:
学得模型适用于新样本的能力。训练好的模型在前所未见的数据上的性能好坏。
训练数据和真实数据间的差异,训练模型的目地是要模型在完全陌生的数据上进行测试的;
通常假设样本空间中的样本服从一个未知分布D , 样本从这个分布中独立获得,即“独立同分布”(i.i.d)。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型
模型
模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。
两个阶段:
训练是指创建或学习模型。也就是说,向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
推断是指将训练后的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测 (y’)。例如,在推断期间,您可以针对新的无标签样本预测是否好瓜。
假设空间
假设空间由3部分组成: ① 属性(特征)色泽,根蒂,敲声的取值分别有2,3,3种选择; ② 色泽,根蒂,敲声也许无论取什么值都合适,我们分别用通配符“ * ”表示 例如:“ 好瓜<—>(色泽= *)^(根蒂=蜷缩)^(敲声=浊响)”, 即“好瓜是根蒂蜷缩、敲声浊响的瓜,什么色泽都行” ③ 还有一种极端情况,有可能“ 好瓜 ”这个概念根本就不成立, 世界上压根就没有“好瓜”这种东西,我们用Ø表示这个假设。 所以,表中,色泽有2中取值,根蒂有3中取值,敲声有3中取值, 再加上各自的“通配项”,以及极端情况“好瓜概念根本不成立”的Ø, 故假设空间规模大小为:(2+1) * (3+1) * (3+1)+ 1 = 49。
学习过程看作一个在所有假设(hypothesis) 组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"的假设,获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。
算法分类
算法分类
输入数据有无标记信息
监督学习:分类、回归
样本带有标签值,称为监督信号,有学习过程,根据训练样本学习,得到模型,然后用于预测。按照标签值的类型可以进一步分为两类
分类问题 - 标签值为整数编号,离散值
回归问题 - 标签值为实数
无监督学习:聚类,降维
样本没有标签值,没有训练过程,机器学习算法直接对样本进行处理,得到结果
半监督学习:两者结合
有些训练样本有标签值,有些没有标签值,用这些样本进行训练得到模型,然后用于预测,介于有监督学习与无监督学习之间
强化学习:
计算机从一开始完全随机的进行操作,通过不断地尝试,从错误中学习,找到规律,学会了达到目的的方法。这就是一个完整的强化学习过程。
让计算机在不断的尝试中更新自己的行为,从而一步步学习如何操纵自己的行为得到高分。给予算法一个不断试错,并具有奖励机制的场景,最终是算法找到最佳路径或者策略。
它主要包含四个元素,Agent、环境状态、行动、奖励,强化学习的目标就是获得最多的累计奖励。
生成模型与判别模型
有监督学习算法可以进一步分为生成模型与判别模型
生成模型对样本特征向量与标签值的联合概率分布 p(x,y) 进行建模,或者对条件概率 p(x|y) 建模
生成模型需要对样本的特征向量服从某种概率分布建模
判别模型直接对后验概率 p(y|x) 建模
或者直接预测标签值 y=f(x) ,不使用概率模型
判别模型不对样本特征向量的概率分布进行建模
机器学习通用步骤
1.选择数据:训练数据、测试数据、验证数据(训练效果、泛化效果、验证效果)
2.数据建模: 使用训练数据来构建使用相关特征的模型
3.训练模型:特征数据接入算法模型,来确定算法模型的类型,参数等。
4.测试模型:使用测试数据检查被训练模型的表现(精确率、召回率)
5.验证模型: 使用完全训练好的模型在新数据上做预测
6..调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现
2 线性模型
最小二乘法
例题