机器学习-西瓜书第一、二章

简介: 数据集:所有数据的集合训练集:训练样本的集合属性(特征):某事物或对象在某方面表现的性质属性值:属性的取值属性空间/样本空间/输入空间:属性张成的空间泛化能力:学得模型适用于新样本的能力(泛化能力强更好地适用于样本空间)

第一章:绪论


基本概念

数据集:所有数据的集合

训练集:训练样本的集合

属性(特征):某事物或对象在某方面表现的性质

属性值:属性的取值

属性空间/样本空间/输入空间:属性张成的空间

泛化能力:学得模型适用于新样本的能力(泛化能力强更好地适用于样本空间)


机器学习算法的类型


1. 有监督学习

有监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。 Y = f (X)


训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。


利用有监督学习解决的问题大致上可以被分为两类:


分类问题:预测某一样本所属的类别(离散的)。比如给定一个人(从数据的角度来说,是给出一个人的数据结构,包括:身高,年龄,体重等信息),然后判断是性别,或者是否健康。


回归问题:预测某一样本的所对应的实数输出(连续的)。比如预测某一地区人的平均身高。


下面所介绍的前五个算法(线性回归,逻辑回归,分类回归树,朴素贝叶斯,K最近邻算法)均是有监督学习的例子。


除此之外,集成学习也是一种有监督学习。它是将多个不同的相对较弱的机器学习模型的预测组合起来,用来预测新的样本。本文中所介绍的第九个和第十个算法(随机森林装袋法,和XGBoost算法)便是集成技术的例子。


2. 无监督学习


 无监督学习问题处理的是,只有输入变量X没有相应输出变量的训练数据。它利用没有专家标注训练数据,对数据的结构建模。


可以利用无监督学习解决的问题,大致分为两类:


关联分析:发现不同事物之间同时出现的概率。在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋,那么商家就会把鸡蛋和面包放在相邻的货架上。


聚类问题:将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。


维度约减:顾名思义,维度约减是指减少数据的维度同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法,可以达到维度约减的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高纬度转换到低纬度。广为熟知的主成分分析算法就是特征提取的方法。


第二章 模型评估与选择



评估方法

image.png

以下为参考链接导图:西瓜书自学笔记分享第五章 - 知乎

第一章:

b5ee4f7874123b1f8e11278d7e6bb8bf_6110494a19375322f8f90a5f0da868ee.png

第二章:

6bb65eba0926770b04784fa120819ce7_5d2acefb9b0d248b20e94aaa1f3ba7b4.png

f66120c3c3a81aa24b0d98e43a35987c_39cda2e9e9459db1c3b3d01cffa18352.png

73f60e75a7d0c40fc4c7207712ef9487_2d9503e387226c91e609a55237a213cd.png







目录
相关文章
|
机器学习/深度学习 算法
经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析
经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析
167 0
|
7月前
|
机器学习/深度学习 存储 算法
机器学习(西瓜书)简答题总结
机器学习(西瓜书)简答题总结
60 0
|
机器学习/深度学习 算法 数据挖掘
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
1929 0
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
|
机器学习/深度学习 算法
机器学习-西瓜书、南瓜书第六章
支持向量机(Support Vector Machine),简称SVM,是一种经典的二分类模型,属于监督学习算法。
124 0
机器学习-西瓜书、南瓜书第六章
|
机器学习/深度学习
机器学习-西瓜书、南瓜书第五章
神经网络起源于生物神经元的生物原理,生物神经元通常包括细胞体、树突和轴突等部分。其中,树突适用于接受输入信息,突触对输入信息进行处理,达到一定条件后由轴突产生输出,此时神经元表现为激活兴奋的状态。
117 0
机器学习-西瓜书、南瓜书第五章
|
机器学习/深度学习 算法
机器学习-西瓜书、南瓜书第四章
基于树结构来进行决策,体现人类在面临决策问题时一种很自然的处理机制
84 0
机器学习-西瓜书、南瓜书第四章
|
机器学习/深度学习 数据采集 算法
机器学习-西瓜书、南瓜书第三章
回归任务最常用的性能度量是均方误差,因为均方误差有比较好的几何意义,对应了最常用的**“欧氏距离”,最小二乘法就是基于均方误差进行模型求解的。 求解均方误差最小化的过程称为参数估计
120 0
机器学习-西瓜书、南瓜书第三章
|
机器学习/深度学习 算法
机器学习【西瓜书/南瓜书】--- 第2章模型评估与选择(下)(学习笔记+公式推导)
本博客为博主在学习 机器学习【西瓜书 / 南瓜书】过程中的学习笔记,每一章都是对《西瓜书》、《南瓜书》内容的总结和提炼笔记,博客可以作为各位读者的辅助思考,也可以做为读者快读书籍的博文,本博客对西瓜书所涉及公式进行详细的推理以及讲解,本人认为,不推导公式所学得的知识是没有深度的,是很容易忘记的,有些公式推导起来并不复杂,只是被看似复杂的数学表达式所“吓唬”,希望大家拿上纸笔,跟着博主一起学习,一起推导。
231 0
机器学习【西瓜书/南瓜书】--- 第2章模型评估与选择(下)(学习笔记+公式推导)
|
机器学习/深度学习 算法 数据挖掘
机器学习【西瓜书/南瓜书】--- 第1章绪论(学习笔记+公式推导)
本博客为博主在学习 机器学习【西瓜书 / 南瓜书】过程中的学习笔记,每一章都是对《西瓜书》、《南瓜书》内容的总结和提炼笔记,博客可以作为各位读者的辅助思考,也可以做为读者快读书籍的博文,本博客对西瓜书所涉及公式进行详细的推理以及讲解,本人认为,不推导公式所学得的知识是没有深度的,是很容易忘记的,有些公式推导起来并不复杂,只是被看似复杂的数学表达式所“吓唬”,希望大家拿上纸笔,跟着博主一起学习,一起推导。
244 0
机器学习【西瓜书/南瓜书】--- 第1章绪论(学习笔记+公式推导)
|
7月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
248 14