西瓜西瓜我爱你
绪论-基本术语
数据集 data set
示例 instance
样本 sample
属性 attribute
特征 feature
属性值 attribute space
样本空间 sample space
特征向量 feature vector
D={x1, x2,...,xm}表示包含m个示例得数据集,每个示例由d个属性描述,则xi=(xi1,xi2,...,xid)是d维样本空间X中的一个向量,xi属于X,d成为样本xi的 维数 dimensionality。
从数据中学得模型的过程成为学习learning或者training
训练样本 training sample 训练集 training set 训练数据 train data
假设 hypothesis 真相 真实 ground-truth
学习器 learner 预测 prediction 标记 label 样本 example 标记空间 label space
预测值离散-分类 classification
预测值连续-回归 regression
二分类 binary classification
正类 positive class 反类 negative class 多分类 multi-class classification
测试 testing 测试样本 testing sample
聚类 clustering 簇 cluster
监督学习/无监督学习 supervised/unsupervised learning 分类和回归/聚类
泛化 generalization 分布 distribution 独立同分布 independent and identically distributed==i.i.d
归纳 induction 演绎 deduction // 泛化generalization 特化 specialization
归纳学习 inductive learning
奥克姆剃刀 ocam's razor 若有多个假设与观察一致,则选择最简单的那个
决策树 decision tree 和 基于逻辑的学习 归纳逻辑程序设计 Inductive Logic Programming ILP
统计学习 statistical learning 支持向量机 support vector machine
模型评估与选择
错误率 error rate
精度 accuracy
误差 error
训练误差 trianing error 经验误差 empirical error
泛化误差 generalization error
过拟合 overfitting
underfitting 欠拟合
模型选择 model selection
评估方法
测试集 testing set
测试误差 testing error
留出法 hold-out 训练集 S 测试集T 标记: 红色
交叉验证法 cross validation 标记: 红色
每个子集尽可能保持数据分布的一致性,每次用k-1个子集作为训练集,1个作为测试集
k折交叉验证k-fold cross validation
自助法 bootstrapping 采用自主采样法 bootstrap sampling为基础 标记: 红色
每次随机采样,然后再将该样本放回数据集,反复执行m次后,得到m个样本数据集
外包估计 out-of-bag estimate
调参与最终模型
参数 parameter 调参 parameter tuning
验证集 validation set
性能度量
performance measure
均方误差
错误率与精度
查准率、查全率与F1、P-R曲线、平衡点 break-event point 查准率=查全率 的取值
ROC与AUC
代价敏感错误率与代价曲线
比较检验
假设检验
交叉验证t检验
McNemar检验
Friedman检验与Nemenyi后续检验
偏差与方差