【机器学习】假设空间与版本空间

简介: 【机器学习】假设空间与版本空间

1.假设空间

  监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
  模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。
  我们也可以将学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"的假设,即能够将训练集中的瓜判断正确的假设。

2.版本空间

  与训练集一致的“假设集合”。

3.具体实例

  我们通过一个例子来看一下假设空间和版本空间的区别。
  假设我们的训练集如下所示:
image.png

  这里我们的假设空间由形如“(色泽=?)^(根蒂=?)^(敲声=?)”的可能取值所形成的假设组成。
  色泽有“青绿”和“乌黑”两种取值,还需考虑无论色泽取什么值都合适的情况,用通配符(*)表示。色泽属性共三种取值;
  根蒂有“蜷缩”、“硬挺”和“稍蜷”三种取值,同理再加通配符(*)表示,根蒂属性共四种取值;
  敲声有“浊响”、“清脆”和“沉闷”三种取值,同理再加通配符(*)表示,敲声属性共四种取值;
  还有一种假设组成——可能"好瓜”这个概念就不成立,我们用∅表示这种假设。
  那么,所对应的假设组成的个数为:3x4x4+1=49. 即所对应的假设空间的规模大小为49。
  假设空间如下所示:
(1)(色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响)

(2)(色泽=青绿)^(根蒂=蜷缩)^(敲声=清脆)

(3)(色泽=青绿)^(根蒂=蜷缩)^(敲声=沉闷)

(4)(色泽=青绿)^(根蒂=硬挺)^(敲声=浊响)

(5)(色泽=青绿)^(根蒂=硬挺)^(敲声=清脆)

(6)(色泽=青绿)^(根蒂=硬挺)^(敲声=沉闷)

(7)(色泽=青绿)^(根蒂=稍蜷)^(敲声=浊响)

(8)(色泽=青绿)^(根蒂=稍蜷)^(敲声=清脆)

(9)(色泽=青绿)^(根蒂=稍蜷)^(敲声=沉闷)

(10)(色泽=乌黑)^(根蒂=蜷缩)^(敲声=浊响)

(11)(色泽=乌黑)^(根蒂=蜷缩)^(敲声=清脆)

(12)(色泽=乌黑)^(根蒂=蜷缩)^(敲声=沉闷)

(13)(色泽=乌黑)^(根蒂=硬挺)^(敲声=浊响)

(14)(色泽=乌黑)^(根蒂=硬挺)^(敲声=清脆)

(15)(色泽=乌黑)^(根蒂=硬挺)^(敲声=沉闷)

(16)(色泽=乌黑)^(根蒂=稍蜷)^(敲声=浊响)

(17)(色泽=乌黑)^(根蒂=稍蜷)^(敲声=清脆)

(18)(色泽=乌黑)^(根蒂=稍蜷)^(敲声=沉闷)

(19)(色泽=*)^(根蒂=蜷缩)^(敲声=浊响)

(20)(色泽=*)^(根蒂=蜷缩)^(敲声=清脆)

(21)(色泽=*)^(根蒂=蜷缩)^(敲声=沉闷)

(22)(色泽=*)^(根蒂=硬挺)^(敲声=浊响)

(23)(色泽=*)^(根蒂=硬挺)^(敲声=清脆)

(24)(色泽=*)^(根蒂=硬挺)^(敲声=沉闷)

(25)(色泽=*)^(根蒂=稍蜷)^(敲声=浊响)

(26)(色泽=*)^(根蒂=稍蜷)^(敲声=清脆)

(27)(色泽=*)^(根蒂=稍蜷)^(敲声=沉闷)

(28)(色泽=青绿)^(根蒂=*)^(敲声=浊响)

(29)(色泽=青绿)^(根蒂=*)^(敲声=清脆)

(30)(色泽=青绿)^(根蒂=*)^(敲声=沉闷)

(31)(色泽=乌黑)^(根蒂=*)^(敲声=浊响)

(32)(色泽=乌黑)^(根蒂=*)^(敲声=清脆)

(33)(色泽=乌黑)^(根蒂=*)^(敲声=沉闷)

(34)(色泽=青绿)^(根蒂=蜷缩)^(敲声=*)

(35)(色泽=青绿)^(根蒂=硬挺)^(敲声=*)

(36)(色泽=青绿)^(根蒂=稍蜷)^(敲声=*)

(37)(色泽=乌黑)^(根蒂=蜷缩)^(敲声=*)

(38)(色泽=乌黑)^(根蒂=硬挺)^(敲声=*)

(39)(色泽=乌黑)^(根蒂=稍蜷)^(敲声=*)

(40)(色泽=)^(根蒂=)^(敲声=浊响)

(41)(色泽=)^(根蒂=)^(敲声=清脆)

(42)(色泽=)^(根蒂=)^(敲声=沉闷)

(43)(色泽=)^(根蒂=蜷缩)^(敲声=

(44)(色泽=)^(根蒂=硬挺)^(敲声=

(45)(色泽=)^(根蒂=稍蜷)^(敲声=

(46)(色泽=青绿)^(根蒂=)^(敲声=

(47)(色泽=乌黑)^(根蒂=)^(敲声=

(48)(色泽=)^(根蒂=)^(敲声=*)

(49) ∅

  在此‘西瓜例’中,我们的学习目标为“好瓜”,所以我们要通过训练集,从假设空间中删除与正例不一致的假设、和(或)与反例一致的假设,最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果,学得的假设集合即为要求的版本空间。步骤如下:

1) 根据样本数据,我们知“好瓜”的概念是成立的,所以先删除 ∅ 的假设。

  删除假设空间中的(49)

2) 删除与正例(好瓜)不一致的假设。

根据样本((色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响))——>好瓜,

  删除(2)-(18)、(20)-(27)、(29)- (33)、(35)-(39)、(41)-(42)、(44)-(45)、(47)

根据样本((色泽=乌黑)^(根蒂=蜷缩)^(敲声=浊响))——>好瓜,

  在上一步的基础上再删除(1)、(28)、(34)、(46)

3)删除与反例(不是好瓜)一致的假设。

根据样本((色泽=青绿)^(根蒂=硬挺)^(敲声=清脆))——>不是好瓜,

  在上一步的基础上再删除(48)

根据样本((色泽=乌黑)^(根蒂=稍蜷)^(敲声=沉闷))——>不是好瓜,

  剩余假设空间中已无满足此条件可被删的假设

此时,只剩余(19)、(40)、(43)与训练集一致。

(19)(色泽=*)^(根蒂=蜷缩)^(敲声=浊响)

(40)(色泽=)^(根蒂=)^(敲声=浊响)

(43)(色泽=)^(根蒂=蜷缩)^(敲声=

相关文章
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
102 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
7月前
|
机器学习/深度学习 分布式计算 算法
机器学习PAI常见问题之下载了很多版本依赖包导致超时如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
4月前
|
机器学习/深度学习 人工智能 Linux
【机器学习】Dify:AI智能体开发平台版本升级
【机器学习】Dify:AI智能体开发平台版本升级
283 0
|
5月前
|
机器学习/深度学习 人工智能 Java
人工智能平台PAI使用问题之Java SDK支持哪些版本
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之在ODPS的xxx_dev项目空间调用easyrec训练,需要访问yyy项目空间的OSS,出现报错,是什么导致的
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
7月前
|
机器学习/深度学习 算法
【机器学习】朴素贝叶斯分类器的假设?
【5月更文挑战第10天】【机器学习】朴素贝叶斯分类器的假设?
|
7月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之负采样版本DSSM双塔模型训练好之后,怎么分别获取user tower的embedding和item tower的embedding
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 数据采集 传感器
机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据探索特征工程等
在工业蒸汽量预测上篇中,主要讲解了数据探索性分析:查看变量间相关性以及找出关键变量;数据特征工程对数据精进:异常值处理、归一化处理以及特征降维;在进行归回模型训练涉及主流ML模型:决策树、随机森林,
|
机器学习/深度学习 人工智能 数据可视化
人工智能创新挑战赛:海洋气象预测Baseline[4]完整版(TensorFlow、torch版本)含数据转化、模型构建、MLP、TCNN+RNN、LSTM模型训练以及预测
人工智能创新挑战赛:海洋气象预测Baseline[4]完整版(TensorFlow、torch版本)含数据转化、模型构建、MLP、TCNN+RNN、LSTM模型训练以及预测
人工智能创新挑战赛:海洋气象预测Baseline[4]完整版(TensorFlow、torch版本)含数据转化、模型构建、MLP、TCNN+RNN、LSTM模型训练以及预测
|
机器学习/深度学习 算法
学习笔记: 机器学习经典算法-空间内一点到超平面的距离推广公式
机器学习经典算法-个人笔记和学习心得分享
165 0
下一篇
DataWorks