机器学习-西瓜书第一、二章

2022-10-19 179

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据集：所有数据的集合训练集：训练样本的集合属性（特征）：某事物或对象在某方面表现的性质属性值：属性的取值属性空间/样本空间/输入空间：属性张成的空间泛化能力：学得模型适用于新样本的能力（泛化能力强更好地适用于样本空间）

第一章：绪论

基本概念

数据集：所有数据的集合

训练集：训练样本的集合

属性（特征）：某事物或对象在某方面表现的性质

属性值：属性的取值

属性空间/样本空间/输入空间：属性张成的空间

泛化能力：学得模型适用于新样本的能力（泛化能力强更好地适用于样本空间）

机器学习算法的类型

1. 有监督学习

有监督学习通常是利用带有专家标注的标签的训练数据，学习一个从输入变量X到输入变量Y的函数映射。 Y = f (X)

训练数据通常是(n×x,y)的形式，其中n代表训练样本的大小，x和y分别是变量X和Y的样本值。

利用有监督学习解决的问题大致上可以被分为两类：

分类问题：预测某一样本所属的类别（离散的）。比如给定一个人（从数据的角度来说，是给出一个人的数据结构，包括：身高，年龄，体重等信息），然后判断是性别，或者是否健康。

回归问题：预测某一样本的所对应的实数输出（连续的）。比如预测某一地区人的平均身高。

下面所介绍的前五个算法（线性回归，逻辑回归，分类回归树，朴素贝叶斯，K最近邻算法）均是有监督学习的例子。

除此之外，集成学习也是一种有监督学习。它是将多个不同的相对较弱的机器学习模型的预测组合起来，用来预测新的样本。本文中所介绍的第九个和第十个算法（随机森林装袋法，和XGBoost算法）便是集成技术的例子。

2. 无监督学习

无监督学习问题处理的是，只有输入变量X没有相应输出变量的训练数据。它利用没有专家标注训练数据，对数据的结构建模。

可以利用无监督学习解决的问题，大致分为两类：

关联分析：发现不同事物之间同时出现的概率。在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋，那么商家就会把鸡蛋和面包放在相邻的货架上。

聚类问题：将相似的样本划分为一个簇（cluster）。与分类问题不同，聚类问题预先并不知道类别，自然训练数据也没有类别的标签。

维度约减：顾名思义，维度约减是指减少数据的维度同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法，可以达到维度约减的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高纬度转换到低纬度。广为熟知的主成分分析算法就是特征提取的方法。

第二章模型评估与选择

评估方法

以下为参考链接导图：西瓜书自学笔记分享第五章 - 知乎

第一章：

b5ee4f7874123b1f8e11278d7e6bb8bf_6110494a19375322f8f90a5f0da868ee.png

第二章：

6bb65eba0926770b04784fa120819ce7_5d2acefb9b0d248b20e94aaa1f3ba7b4.png

f66120c3c3a81aa24b0d98e43a35987c_39cda2e9e9459db1c3b3d01cffa18352.png

73f60e75a7d0c40fc4c7207712ef9487_2d9503e387226c91e609a55237a213cd.png

机器学习-西瓜书第一、二章

第一章：绪论

基本概念

机器学习算法的类型

1. 有监督学习

2. 无监督学习

第二章模型评估与选择

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

机器学习-西瓜书第一、二章

第一章：绪论

基本概念

机器学习算法的类型

1. 有监督学习

2. 无监督学习

第二章 模型评估与选择

热门文章

最新文章

相关课程

相关电子书

相关实验场景

第二章模型评估与选择