机器学习32问

简介: 机器学习32问

1. 什么是机器学习?

Machine learning (ML) is the study of computer algorithms that improve automatically through experience.

机器学习研究能够从经验中自动提升自身性能的计算机算法。


2. 机器学习经历了哪几个阶段?

第一阶段:推理期

第二阶段:知识期

第一阶段:学习期


3. 什么是有监督学习和无监督学习,并各举一个算法例子?

有监督学习:从有标记的样本中学习,如决策树。

无监督学习:从不含标记的样本中学习,如K均值算法。


4. 什么是经验误差和泛化误差?

经验误差(Empirical Error):

学习器𝑓在训练集 {(𝑥𝑖, 𝑦𝑖) , 𝑖 = 1, ⋯ , 𝑚 }上的误差

image.png

泛化误差(Generalization Error):

学习器𝑓在“未来”样本上的误差

image.png

经验误差是不是越小越好? No! 可能会出现过拟合


5. 请解释欠拟合和过拟合?

欠拟合:相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法捕捉到数据中的规律的现象。

过拟合:模型过于紧密或精确地匹配特定数据集,以致于无法良好地拟合其他数据或预测未来的观察结果的现象。

合适的拟合:模型能够恰当地拟合和捕捉到数据中规律的现象。


6. 什么是交叉验证法(Cross Validation)?

Step 1:首先将训练集均匀分成K份。

Step 2:每次取其中一份作为验证集,剩下部分作为新的训练集,从而得到在该验证集的学习精度。

Step 3:重复K次,得到平均精度。

Step 4:选择平均精度最高的参数作为最终模型参数。

例如:

假设某个学习算法在四个验证集合上的识别率分别:50%,100%, 50%, 50%,则平均识别率为62.5%


7. 什么是查准率、查全率与分类精度?

查准率、查全率与分类精度

image.png

为了精确描述分类效果,需要对各个类别进行独立评价,并设立查准率和查全率指标对分类性能进行分析。

查准率:

image.png

查全率:

image.png

分类精度:

image.png


8. 什么是线性回归?

线性回归:利用线性模型进行回归分析的方法。


9. 概率、几率与对数几率关系?

概率、几率与对数几率(Probability vs. Odds

vs. Logit)

概率(Probability):事件发生的可能性。

几率(Odds) :事件发生和不发生的比率。

对数几率(Logit) :几率取对数。


10.对数几率回归模型?

image.png

其中:

image.png

image.png


11.什么是线性判别分析(Linear Discriminant Analysis, LDA) ?

image.png


线性判别分析思想:寻找一个直线(或者低维子空间),使得同类样本的投影点尽可能接近,异类样本的投影点尽可能远离。

同类近,异类远。


12.什么是决策树?决策树的优点?

image.png


13.在决策树中,选择最优划分属性的准则有哪些?

信息增益:

image.png

增益率:

image.png

基尼指数:

image.png


14.什么是感知器?组成部分?

image.png

输入层,运算层,输出层

感知器学习算法优点:

➢ 简单、直观

➢ 测试速度快

感知器学习算法缺点:

➢ 只能处理线性可分的样本

➢ 训练速度较慢

多层感知器解决线性不可分问题的原理:将原始问题在隐含层映射成线性可分问题


15.什么是支持向量机?

在样本空间中寻找一个超平面,将不同类别的样本分类。

将训练样本分开的超平面很多,哪一个更好呢?

正中间的:泛化性能最好

image.png


16.如何构建支持向量机的目标函数?

image.png


凸二次规划问题,能用优化计算包求解,但可以有更高校的办法。


17.什么核函数?它的作用是什么?

若不存在一个能正确划分两类样本的超平面,怎么办?

将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分。

image.png

如果原始空间是有限维,那么一定存在一个高维特征空间使得样本可分。


18.软间隔支持向量机试图解决什么问题?

image.png


19.什么是贝叶斯定理?

设𝑐为类别指标(如 𝑐 = 1表示好瓜, 𝑐 = 2表示坏瓜),𝐱 ∈ ℝ𝑑为样本的特征向量。

image.png

𝑃(𝑐) :先验概率(prior probability),可用样本空间中各类样本所占的比例估计

𝑃(𝐱) :证据因子(evidence factor) ,与类别无关

𝑃(𝐱|𝑐) :似然函数 (likelihood function) ,即样本相对于类标记的类条件概率(class-conditional probability)

image.png


20.什么是朴素贝叶斯分类器?

image.png



21.什么是集成学习?

image.png

Ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone.

集成学习方法通过结合多种学习算法来获得比单独使用任何单独的学习算法更好的预测性能。


22.如何得到好的集成?

image.png


23.有哪些成功的集成学习方法?

image.png


24.Boosting方法的思想和原理是什么?

Boosting是一族可将弱学习器提升为强学习器的算法。


先从初始训练集训练出一个基学习器

再根据基学习器的表现对训练样本分布进行调整,使得先前基

学习器的做错的训练样本在后续受到更多关注

然后基于调整后的样本分布来训练下一个基学习器

如此重复进行,直至基学习器数目达到事先指定的值𝑇

最终将这T个基学习器进行加权结合。

25.什么是聚类?

Clustering analysis is the task of grouping a set of objects such that objects in the same group are more similar to each other than to those in other groups.

聚类分析是将数据集分组,使得同一组内的数据相比与其他组的数据更相似。


26.聚类有哪些应用?

聚类分析应用案例:商业,生物,医学,图像

市场分割:根据客户的消费记录进行聚类,进而合理地推荐。

基因分组:根据基因的表达模式进行聚类,用于分析基因功能。

医学图像分割:将肿瘤图像中的像素进行聚类,用于自动分割出肿瘤部分。

自然图像分割:基于图像的模式识别的重要数据预处理步骤。


27.什么是K均值(K-Means)聚类算法?

输入:数据集 𝐗 = 𝐱1, ⋯ , 𝐱𝑛 ,参数K

初始化:随机选K个点 𝛍1, ⋯ , 𝛍𝐾 作为K个类中心

步骤一:(新聚类)将每个点赋予离其最近的类中心点

步骤二:(新中心)计算每类数据点的均值作为新的类中心

重复上述步骤直到收敛,即聚类结果不变

输出:每个数据点的类别指标


28.K均值(K-Means)聚类算法优缺点?

K均值聚类算法优点:

➢ 简单、直观

➢ 运算速度快

K均值聚类算法缺点:

➢ 依赖类别数K的选择

➢ 对噪声数据和孤立点敏感

➢ 对初始簇中心点敏感


29.什么是K中心点(K-Medoids)聚类算法?

输入:数据集 𝐗 = 𝐱1, ⋯ , 𝐱𝑛 ,参数K

初始化:随机选K个样本点 𝛍1, ⋯ , 𝛍𝐾 作为K个类中心

步骤一:(新聚类)将每个点赋予离其最近的类中心点

步骤二:(新中心)选择每类数据点的代表点作为新类中心

重复上述步骤直到收敛,即聚类结果不变

输出:每个数据点的类别指标


30.什么是层次聚类算法?

凝聚型层次聚类:自底向上

输入:数据集 𝐗 = 𝐱1, ⋯ , 𝐱𝑛

步骤一:(计算距离)计算任意两个数据集之间的距离。

步骤二:(数据融合)将距离最近的两个数据集融合。

重复上述步骤直到所有数据点融合成一个大集合。

输出:每个数据点的类别指标


31.什么是降维?

Dimensionality Reduction (DR) is the transformation of data from a high-dimensional space into a low-dimensional space so that the low-dimensional representation retains some meaningful properties of the original data, ideally close to its intrinsic dimension.

降维是将数据从高维空间变换到低维空间,使得数据的低维表示能够保留原始数据的某些有意义的性质,理想情况下接近原始数据的本征维。


32.什么是主成分分析?

输入:样本集𝐷 = 𝐱1, ⋯ , 𝐱𝑛 ⊂ ℝ𝑑,低维空间维数𝑑′

1:对所有样本进行标准化使得均值为0,标准差为1

2:计算样本的协方差矩阵𝐗𝐗𝑇(𝐗与𝐗的转置)

3:对协方差矩阵𝐗𝐗𝑇(𝐗与𝐗的转置) 做特征值分解

4:取最大的𝑑′个特征值所对应的特征向量𝐰1, ⋯ , 𝐰𝑑′

输出:投影矩阵𝐖 = [𝐰1, ⋯ , 𝐰𝑑′]

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自动驾驶
机器学习是什么?
机器学习是什么?
54 1
|
3月前
|
机器学习/深度学习 SQL 算法
用C#也能做机器学习?
用C#也能做机器学习?
67 16
|
6月前
|
机器学习/深度学习 算法 数据挖掘
机器学习
“【5月更文挑战第31天】”
43 1
|
机器学习/深度学习
机器学习连载(3)
机器学习连载(3)
45 0
机器学习连载(3)
|
机器学习/深度学习 人工智能 算法
机器学习连载(35)
机器学习连载(35)
47 0
机器学习连载(35)
|
机器学习/深度学习
机器学习连载(18)
机器学习连载(18)
56 0
机器学习连载(18)
|
机器学习/深度学习
机器学习连载(12)
机器学习连载(12)
57 0
机器学习连载(12)
|
机器学习/深度学习
机器学习连载(10)
机器学习连载(10)
52 0
机器学习连载(10)
|
机器学习/深度学习
|
机器学习/深度学习 算法 数据挖掘
机器学习初识
即我们提供数据集,然后计算机根据一定的算法帮我们构建一个模型,相当于一个学习过程,之后输入新的数据,模型返回给我们一定的数据
102 0