西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 西瓜书南瓜书都是好书【绪论】【模型评估与选择】读书笔记

image.png

西瓜西瓜我爱你

绪论-基本术语

数据集 data set

示例 instance

样本 sample

属性 attribute

特征 feature

属性值 attribute space

样本空间 sample space

特征向量 feature vector

D={x1, x2,...,xm}表示包含m个示例得数据集,每个示例由d个属性描述,则xi=(xi1,xi2,...,xid)是d维样本空间X中的一个向量,xi属于X,d成为样本xi的 维数 dimensionality。

从数据中学得模型的过程成为学习learning或者training

训练样本 training sample 训练集 training set 训练数据 train data

假设 hypothesis 真相 真实 ground-truth

学习器 learner 预测 prediction  标记 label 样本 example 标记空间 label space

预测值离散-分类 classification

预测值连续-回归 regression

二分类 binary classification

正类 positive class 反类 negative class 多分类 multi-class classification

测试 testing 测试样本 testing sample

聚类 clustering 簇 cluster

监督学习/无监督学习  supervised/unsupervised learning 分类和回归/聚类

泛化 generalization  分布 distribution 独立同分布 independent and identically distributed==i.i.d

归纳 induction 演绎 deduction   //   泛化generalization  特化 specialization

归纳学习 inductive learning

奥克姆剃刀 ocam's razor 若有多个假设与观察一致,则选择最简单的那个

决策树 decision tree 和 基于逻辑的学习  归纳逻辑程序设计 Inductive Logic Programming ILP

统计学习 statistical learning  支持向量机 support vector machine

模型评估与选择

错误率  error rate

精度 accuracy

误差 error

训练误差 trianing error 经验误差 empirical error

泛化误差 generalization error

过拟合 overfitting

underfitting 欠拟合

模型选择 model selection

评估方法

测试集 testing set

测试误差 testing error

留出法 hold-out  训练集 S 测试集T 标记: 红色

交叉验证法 cross validation 标记: 红色

每个子集尽可能保持数据分布的一致性,每次用k-1个子集作为训练集,1个作为测试集

k折交叉验证k-fold cross validation

自助法 bootstrapping 采用自主采样法 bootstrap sampling为基础 标记: 红色

每次随机采样,然后再将该样本放回数据集,反复执行m次后,得到m个样本数据集

外包估计 out-of-bag estimate

调参与最终模型

参数 parameter 调参 parameter tuning

验证集 validation set

性能度量

performance measure

均方误差

错误率与精度

查准率、查全率与F1、P-R曲线、平衡点 break-event point 查准率=查全率 的取值

ROC与AUC

代价敏感错误率与代价曲线

比较检验

假设检验

交叉验证t检验

McNemar检验

Friedman检验与Nemenyi后续检验

偏差与方差


目录
相关文章
|
8月前
|
数据库
文献速读|毕设不愁了,中科院二区5分非肿瘤双疾病分析思路
研究摘要:一项发表于2023年《Molecular Neurobiology》(IF=5.1)的论文探讨了帕金森病(PD)与重度抑郁症(MDD)的共病基因。研究通过分析基因表达谱数据识别出PD和MDD的共同基因,特别是AQP9、SPI1和RPH3A三个关键基因。这些基因在两种疾病中均表现出显著差异表达,且与中性粒细胞和单核细胞的功能有关。研究使用生物信息学方法进行基因功能注释和蛋白质相互作用网络分析,并通过实验验证了基因在模型系统中的作用,强调了这些基因在疾病病理生理中的潜在角色。
210 0
|
机器学习/深度学习 算法
西瓜书南瓜书都是好书【线性模型】读书笔记
西瓜书南瓜书都是好书【线性模型】读书笔记
129 0
西瓜书南瓜书都是好书【线性模型】读书笔记
|
机器学习/深度学习 算法
周志华西瓜书-第四章学习总结
周志华西瓜书-第四章学习总结
周志华西瓜书-第四章学习总结
|
机器学习/深度学习 算法 知识图谱
周志华西瓜书-第五章学习总结
周志华西瓜书-第五章学习总结
周志华西瓜书-第五章学习总结
|
机器学习/深度学习
周志华西瓜书-第六章学习总结
周志华西瓜书-第六章学习总结
周志华西瓜书-第六章学习总结
|
程序员
盘点关于程序员的那些经典案例
深度剖析几个经典话题,以图文的形式展现,好好看图。
132 0
|
机器学习/深度学习 算法
机器学习-西瓜书、南瓜书第四章
基于树结构来进行决策,体现人类在面临决策问题时一种很自然的处理机制
88 0
机器学习-西瓜书、南瓜书第四章
|
机器学习/深度学习 算法
机器学习-西瓜书、南瓜书第六章
支持向量机(Support Vector Machine),简称SVM,是一种经典的二分类模型,属于监督学习算法。
135 0
机器学习-西瓜书、南瓜书第六章
|
机器学习/深度学习
机器学习-西瓜书、南瓜书第五章
神经网络起源于生物神经元的生物原理,生物神经元通常包括细胞体、树突和轴突等部分。其中,树突适用于接受输入信息,突触对输入信息进行处理,达到一定条件后由轴突产生输出,此时神经元表现为激活兴奋的状态。
124 0
机器学习-西瓜书、南瓜书第五章
|
机器学习/深度学习 数据采集 算法
机器学习-西瓜书、南瓜书第三章
回归任务最常用的性能度量是均方误差,因为均方误差有比较好的几何意义,对应了最常用的**“欧氏距离”,最小二乘法就是基于均方误差进行模型求解的。 求解均方误差最小化的过程称为参数估计
124 0
机器学习-西瓜书、南瓜书第三章

热门文章

最新文章