西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记

image.png

西瓜西瓜我爱你

绪论-基本术语

数据集 data set

示例 instance

样本 sample

属性 attribute

特征 feature

属性值 attribute space

样本空间 sample space

特征向量 feature vector

D={x1, x2,...,xm}表示包含m个示例得数据集,每个示例由d个属性描述,则xi=(xi1,xi2,...,xid)是d维样本空间X中的一个向量,xi属于X,d成为样本xi的 维数 dimensionality。

从数据中学得模型的过程成为学习learning或者training

训练样本 training sample 训练集 training set 训练数据 train data

假设 hypothesis 真相 真实 ground-truth

学习器 learner 预测 prediction  标记 label 样本 example 标记空间 label space

预测值离散-分类 classification

预测值连续-回归 regression

二分类 binary classification

正类 positive class 反类 negative class 多分类 multi-class classification

测试 testing 测试样本 testing sample

聚类 clustering 簇 cluster

监督学习/无监督学习  supervised/unsupervised learning 分类和回归/聚类

泛化 generalization  分布 distribution 独立同分布 independent and identically distributed==i.i.d

归纳 induction 演绎 deduction   //   泛化generalization  特化 specialization

归纳学习 inductive learning

奥克姆剃刀 ocam's razor 若有多个假设与观察一致,则选择最简单的那个

决策树 decision tree 和 基于逻辑的学习  归纳逻辑程序设计 Inductive Logic Programming ILP

统计学习 statistical learning  支持向量机 support vector machine

模型评估与选择

错误率  error rate

精度 accuracy

误差 error

训练误差 trianing error 经验误差 empirical error

泛化误差 generalization error

过拟合 overfitting

underfitting 欠拟合

模型选择 model selection

评估方法

测试集 testing set

测试误差 testing error

留出法 hold-out  训练集 S 测试集T 标记: 红色

交叉验证法 cross validation 标记: 红色

每个子集尽可能保持数据分布的一致性,每次用k-1个子集作为训练集,1个作为测试集

k折交叉验证k-fold cross validation

自助法 bootstrapping 采用自主采样法 bootstrap sampling为基础 标记: 红色

每次随机采样,然后再将该样本放回数据集,反复执行m次后,得到m个样本数据集

外包估计 out-of-bag estimate

调参与最终模型

参数 parameter 调参 parameter tuning

验证集 validation set

性能度量

performance measure

均方误差

错误率与精度

查准率、查全率与F1、P-R曲线、平衡点 break-event point 查准率=查全率 的取值

ROC与AUC

代价敏感错误率与代价曲线

比较检验

假设检验

交叉验证t检验

McNemar检验

Friedman检验与Nemenyi后续检验

偏差与方差


目录
相关文章
|
6月前
|
存储 监控 项目管理
PMBOK泛读(第一章) - 引论(二)
PMBOK泛读(第一章) - 引论(二)
52 0
|
6月前
|
自然语言处理 监控 项目管理
PMBOK泛读(第一章) - 引论(一)
PMBOK泛读(第一章) - 引论(一)
55 0
|
27天前
|
数据建模
R语言网络分析友谊悖论案例
R语言网络分析友谊悖论案例
R语言网络分析友谊悖论案例
|
2月前
|
机器学习/深度学习 存储 算法
机器学习(西瓜书)简答题总结
机器学习(西瓜书)简答题总结
19 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
我失业了?| ChatGPT生信分析初体验
我失业了?| ChatGPT生信分析初体验
79 0
|
7月前
|
算法
数值分析学习笔记——绪论【华科B站教程版本】
数值分析学习笔记——绪论【华科B站教程版本】
110 0
|
机器学习/深度学习 算法 数据挖掘
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
1518 0
周志华《机器学习》西瓜书精炼版笔记来了!16 章完整版
|
机器学习/深度学习 算法
西瓜书南瓜书都是好书【线性模型】读书笔记
西瓜书南瓜书都是好书【线性模型】读书笔记
89 0
西瓜书南瓜书都是好书【线性模型】读书笔记
|
算法
西瓜书南瓜书都是好书【决策树】
西瓜书南瓜书都是好书【决策树】
83 0
西瓜书南瓜书都是好书【决策树】
|
机器学习/深度学习
周志华西瓜书-第六章学习总结
周志华西瓜书-第六章学习总结
周志华西瓜书-第六章学习总结