61、以下描述正确的是:( C )
A、KNN算法中K值对分类效果影响较为显著,一般K值较大时,对噪声比较敏感。
B、朴素贝叶斯算法对缺失数据特别敏感,事先需要知道先验概率。
C、SVM算法可以解决高维问题。提高泛化性能。
D、集成学习算法存在过拟合、鲁棒性不强等问题。
KNN:如果当K的取值过小时,一旦有噪声得成分存在们将会对预测产生比较大影响。如果K的值取的过大时,就相当于用较大邻域中的训练实例进行预测,学习的近似误差会增大。这时与输入目标点较远实例也会对预测起作用,使预测发生错误。K值的增大就意味着整体的模型变得简单;
EM算法对于缺失数据敏感,(原本就是为了计算缺失数据的)。
朴素贝叶斯算法:对缺失数据不太敏感,算法也比较简单,常用于文本分类。需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
集成学习,顾名思义,就是多种学习算法进行集成,使用集成学习可以有效降低过拟合现象的发生。
62、Apriori算法在机器学习和数据挖掘中被广泛使用,已知有1000名球迷看奥运会,分为AB两队,每队各500人,其中A队有500人看了乒乓球比赛,同时又有450人看了羽毛球比赛;B队有450人看了羽毛球比赛,如下表所示:那么 乒乓球→羽毛球的支持度、置信度和提升度分别是==( A )==
看乒乓球人数 看羽毛球人数
A队(500人) 500 450
B对(500人) 0 450
A、0.45 0.9 1
B、0.1 0.1 1
C、0.45 0.1 0
D、0.1 0.45 0
1.支持度(Support):支持度表示项集(X,Y)在总项集里出现的概率。公式为:Support(X→Y)=P(X,Y) / P(I)=P(XUY)/P(I)=num(XUY)/num(l)
2.置信度(Confidence):置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为:Confidence(X→Y)=P(YIX)=P(X,Y)/P(X)=P(XUY)/ P(X)
3.提升度(Lift):提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。
公式为:Lift(X-→Y)=P(YIX)/P(Y)
63、互为对偶的两个线性规划问题的解存在关系 ( B )
A、原问题无可行解,对偶问题也无可行解
B、对偶问题有可行解,原问题可能无可行解
C、若最优解存在,则最优解相同
D、一个问题无可行解,则另一个问题具有无界解
在线性规划早期发展中最重要的发现就是对偶问题,即每一个线性规划问题(称为原始问题)都有一个与它对应的对偶线性规划问题(称为对偶问题)
64、以下哪个模型的系数矩阵不是全幺模矩阵(totally unimodular matrix)( D )
A、最短路问题
B、指派问题
C、最大流问题
D、最小生成树问题
65、下列哪个不属于CRF模型对于HMM和MEMM模型的优势 ( B )
A、特征灵活
B、速度快
C、可容纳较多上下文信息
D、全局最优
CRF 的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优
CRF 的缺点:速度慢
66、在选择分治法解决问题时,应考虑待解决问题应具有哪些特征 ( ABCD )
A、待解决问题规模缩小到一定程度后可以容易解决
B、待解决问题应可以分解为若干个规模较小的相同问题,且子问题应可直接求解。
C、各子问题之间是相互独立的
D、分解后的子问题的解可以合并为源问题的解
I. 该问题的规模缩小到一定的程度就可以容易地解决;
II. 该问题可以分解为若干个规模较小的相同问题,即该问题具有最优子结构性质
III. 利用该问题分解出的子问题的解可以合并为该问题的解;
IV. 该问题所分解出的各个子问题是相互独立的,即子问题之间不包含公共的子问题。
67、两个种子点A(-1,1),B(2,1),其余点为(0,0),(0,2),(1,1),(3,2),(6,0),(6,2),利用Kmeans算法,点群中心按坐标平均计算。最终种子点A需要移动的次数,种子点B需要移动的次数,属于种子点A的点数(不包含A),属于种子点B的点数(不包含B)分别为 ( A )
A、2,2,3,3
B、1,1,3,3
C、1,1,2,4
D、2,2,2,4
算距离,把点分配到离它最近的点上,A分到两个点,B分到4个点
再按坐标中心计算中心点A1=(0,1),B1=(4,1.25)
A2=(1/3,1) B2=(5,4/3)
二、多选
1、以下哪些学科和数据挖掘有密切联系 (CD)
A、计算机组成原理
B、矿产挖掘
C、统计
D、人工智能
2、在统计模式识分类问题中,当先验概率未知时,可以使用 ( BC )
A、最小损失准则
B、N-P判决
C、最小最大损失准则
D、最小误判概率准则
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
p(y)已知,直接使用贝叶斯公式求后验概率即可;
p(y)未知,可以使用**聂曼-皮尔逊决策(N-P决策)**来计算决策面。
而最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。
3、影响聚类算法效果的主要原因有:( A B C )
A、特征选取
B、模式相似性测度
C、分类准则
D、已知类别的样本质量
聚类是对无类别的数据进行聚类,不使用已经标记好的数据。
已知类别的样本质量,说的是有监督的训练,因为只有有监督的训练才要知道样本的类别,然后作为监督训练 的训练集,样本的质量自然是重要的
4、以下方法属于集成方法的是 ( A B C D )
A、bagging
B、stacking
C、blending
D、boosting
集成学习:
①Bagging方法:随机森林
②Boosting方法:AdaBoost、GBDT、XGBoost、LightGBM、CatBoost
③Stacking方法:Stacking
④Blending方法:Blending
5、有监督机器学习方法可以被分为判别式模型和生成式模型,下面属于生成式模型的有 ( B C )
A、SVM支持向量机
B、朴素贝叶斯
C、隐马尔科夫
D、logistic回归
判别式模型(Discriminative Model):直接对条件概率p(y|x)进行建模,如:线性回归、逻辑回归、决策树、支持向量机SVM、k近邻、神经网络等;
生成式模型(Generative Model):对联合分布概率p(x,y)进行建模,然后求出条件概率作为预测模型,如:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA 等;
6、在某神经网络的隐层输出中,包含0.75,那么该神经网络采用的激活函数可能是 (ABC)
A、sigmoid
B、tanh
C、relu
7、假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:( BD )
A、这个被重复的特征在模型中的决定作用会被加强
B、模型效果相比无重复特征的情况下精确度会降低
C、如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
D、当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题
E、NB可以用来做最小二乘回归
F、以上说法都不正确
NB的核心在于它假设向量的所有分量之间是独立的。
在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分
8、以下关于正则化的描述正确的是 (ABCD )
A、正则化可以防止过拟合
B、L1正则化能得到稀疏解
C、L2正则化约束了解空间
D、Dropout也是一种正则化方法
L2本质是参数解的2阶范数,以二维为例,L2的最优解就是一个圆;如果你还记得话,loss func的组成是两部分一部分是预测值和真实值之间的error,一部分是正则项,前一部分的解空间可以看作是一个梯度下降的等高线,这样一来,loss func的所有局部解就是每层等高线和这个圆之间的切点,所以说约束了解空间。这也是为啥L2会让解平滑,L1会让解稀疏(因为L1的解是一个四个顶点在坐标轴上的正方形,等高线与它的交点多半落在坐标轴上,意味着某一维会变成零)
9、在机器学习中,下列关于各算法对应的损失函数正确的是 ( ABCD )
A、最小二乘-Square loss
B、SVM-Hinge Loss
C、Logistic Regression-(log-Loss)
D、AdaBoost-指数损失函数
1、平方和损失函数(square loss):L(yi,f(xi)) = (yi - f(xi))2,常用于回归中如最小二乘,权重可直接初始化,再通过梯度下降不断更新。
2、铰链损失函数(Hing loss): L(mi) = max(0,1-mi(w)),常用于SVM中,在SVM损失函数表示为:
L(y(i),x(i)) = max(0,1-y(i)f(x(i)))
3、对数损失函数:L(yi,f(xi)) = -logP(yi|xi),常用于逻辑回归。
4、指数损失函数:L(yi,f(xi)) = exp(-yif(xi)),主要应用于Boosting算法中。
10、当发现机器学习模型过拟合时,以下操作正确的是:( ABC )
A、降低特征维度
B、增加样本数量
C、添加正则项
D、增加特征维度
造成过拟合两个因素:1、数据量少 2、模型复杂度过高
因为维度不断增加就会增加整个数据空间的稀疏性,这样就更容易找到分类的超平面,所以降低维度可以帮助降低过拟合
11、现在假设负样本量:正样本量=20:1,下列哪些方法可以处理这种不平衡的情况?( ABC )
A、直接训练模型,预测的时候调节阈值
B、复制正样本,以增加正样本数量
C、随机降采样负样本
D、训练过程中,增加负样本的权重
12、在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是 ( ACD)
A、将负样本重复10次,生成10w样本量,打乱顺序参与分类
B、直接进行分类,可以最大限度利用数据
C、从10w正样本中随机抽取1w参与分类
D、将负样本每个权重设置为10,正样本权重为1,参与训练过程
解决这类问题主要分重采样、欠采样、调整权值
1. 重采样。
A可视作重采样的变形。改变数据分布消除不平衡,可能导致过拟合。
2. 欠采样。
C的方案 提高少数类的分类性能,可能丢失多数类的重要信息。
如果1:10算是均匀的话,可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。A选项可以看作此方式,因而相对比较合理。
另:如果目标是 预测的分布 跟训练的分布一致,那就加大对分布不一致的惩罚系数。
3. 权值调整。
D方案也是其中一种方式。
13、在机器学习中需要划分数据集,常用的划分测试集和训练集的划分方法有哪些 ( ABC )
A、留出法
B、交叉验证法
C、自助法
D、评分法
自助法,又称为自助抽样法
14、在某神经网络的隐层输出中,包含-1.5,那么该神经网络采用的激活函数不可能是 ( ABC )
A、sigmoid
B、tanh
C、relu
sigmoid 函数映射之后取值范围为(0,1)
tanh函数映射之后取值范围(-1,1)
Relu函数映射之后取值范围(0,…)≥0
15、以下哪些机器学习算法可以不对特征做归一化处理:( AD )
A、随机森林
B、逻辑回归
C、SVM
D、GBDT
树模型一般不需要做归一化处理,做归一化处理的目的主要为了使同一特征的取值在同一量纲,降低方差太大带来的影响。树模型并不关心特征的具体取值,只关心特征取值的分布。
树模型本身不需要归一化,因为归一化是为了使梯度下降时损失函数尽快的收敛,而树模型不需要梯度下降,是通过寻找最优切分点来使损失函数下降
16、下列关于随机森林(RF)与梯度提升树(GBDT)区别说法正确的是:( ACD )
A、组成随机森林的树可以分类树也可以是回归树,而GBDT只由回归树组成。
B、随机森林对异常值敏感,而GBDT对异常值不敏感。
C、随机森林不需要进行数据预处理,即特征归一化。而GBDT则需要进行特征归一化。
D、组成随机森林的树可以并行生成,而GBDT是串行生成。
概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、rf。而像adaboost、gbdt、xgboost、svm、lr、KNN、KMeans之类的最优化问题就需要归一化。
17、假如你用logistic Regression 算法去预测用户在网上的购买项目,然而,当你在新的用户集上验证你的假设时,你发现预测值有很大的偏差。并且你的假设在训练集上表现也很差,下面那些步骤你应该采纳,选择出正确的选项 ( A )
A、尝试着减小正则项 λ
B、尝试增加交叉特征
C、减小样本量
D、尝试更小的测试集或者特征
**欠拟合:**训练误差和验证误差都很大。
**解决:**增加特征项;增加模型复杂度,如使用核函数;减小正则化系数;集成学习方法。
18、类别不平衡(class-imbanlance)就是指分类问题中不同类别的训练样本相差悬殊的情况,例如正例有900个,而反例只有100个,这个时候我们就需要进行相应的处理来平衡这个问题,下列方法正确的是 ( ACD )
A、在训练样本较多的类别中进行欠采样
B、在训练样本较多的类别中进行过采样
C、直接基于原数据集进行学习,对预测值进行再缩放处理
D、通过对反例中的数据进行插值,来产生额外的反例
处理类别不平衡的方法:
对样本多的类别欠采样(downsampling)
对样本少的类别过采样(upsampling)
对样本少类别分类错误加大惩罚力度(penalizing)
用树类模型
19、数据清理中,处理缺失值的方法是 ( ABCD )
A、估算
B、整例删除
C、变量删除
D、成对删除
20、影响基本K-均值算法的主要因素有 ( ABD )
A、样本输入顺序
B、模式相似性测度
C、聚类准则
D、初始类中心的选取
21、以下可以有效解决过拟合的方法是:( AD )
A、增加样本数量
B、增加特征数量
C、训练更多的迭代次数
D、采用正则化方法
增加特征会让你的模型更加复杂,其实就是更加过拟合。
训练更多的迭代次数也是,会让你的模型,更加偏向于训练集训练出来的结果,而不是测试集的。
过拟合:获取更多训练实例; 减少特征数量;增加正则化成度(λ)。
欠拟合:获得更多特征; 增加多项式特征; 减少正则化(λ)。
22、下列方法中,可以用于特征降维的方法包括 ( ABCD )
A、主成分分析PCA
B、线性判别分析LDA
C、深度学习SparseAutoEncoder
D、矩阵奇异值分解SVD
E、最小二乘法LeastSquares
LDA是有监督的降维方法,而PCA是无监督的降维方法
关于C选项-稀疏自编码,当隐藏层的神经元数目比输入的少的时候,是对高维输入数据进行压缩表示,起到降维的作用。
23、隐马尔可夫模型三个基本问题以及相应的算法说法正确的是 ( ABC )
A、评估—前向后向算法
B、解码—维特比算法
C、学习—Baum-Welch算法
D、学习—前向后向算法
针对以下三个问题,人们提出了相应的算法
1 评估问题: 前向、后向算法。即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。
2 解码问题: Viterbi算法。给定一个模型和某个特定的输出序列,求最可能产生这个输出的状态序列。
3 学习问题: Baum-Welch算法(向前向后算法) 。即参数估计,是一种无监督的训练方法,主要通过EM迭代实现;
24、以下哪些模型是分类模型:( ACD )
A、KNN
B、Kmeans
C、Naïve Bayesian (朴素贝叶斯)
D、Logistic Regression
25、以下属于聚类算法的是:( AB )
A、K均值
B、DBSCAN
C、Apriori
D、朴素贝叶斯
DBSCAN是一个比较有代表性的基于密度的聚类算法
Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型和朴素贝叶斯模型。
26、从使用的主要技术上看,可以把分类方法归结为哪几种类型 ( ABCD )
A、规则归纳方法
B、贝叶斯分类方法
C、决策树分类方法
D、基于距离的分类方法
27、下列关于决策树的说法正确的是 ( ABCD )
A、ID3决策树是根据信息增益来划分属性
B、C4.5决策树是根据增益率来划分属性
C、CART决策树是根据基尼指数来划分属性
D、基尼指数反映了从样本集D中随机抽取两个样本,其类别标记不一致的概率,因此越小越好
决策树常用三种指标来确定是否继续划分集合:信息增益、信息增益率,基尼指数。
信息熵:即数据样本的纯度,纯度越高,熵越小。
信息增益:按照某一特征划分数据集后熵的减少量,选择减少量最多的特征进行划分,但是偏好特征取值较多的特征,常见模型ID3。
信息增益率:在信息怎亿的基础上除以一个固有值(intrinsic value,和取值数目有关),会对取值数目较多的特征有更多惩罚,偏好取值数较少的特征,常见模型C4.5
基尼指数:从样本集D中随机抽取两个样本,其类别标记不一致的概率,因此越小越好
28、机器学习中,如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合。所表现的就是模型训练时候的误差很小,但在测试的时候误差很大,对于产生这种现象以下说法正确的是:( AC )
A、样本数量太少
B、样本数量过多
C、模型太复杂
D、模型太简单
样本数量太少,或者模型过分复杂, 都会使得训练出来的模型“完全记住”给出的训练样本之间的关系(相当于只是背下来了试卷,但是等到高考的时候遇到新的题还是不会做) 而缺乏泛化能力 使得模型过拟合
29、在 ( BD ) 情况下,用分支定界法做特征选择计算量相对较少?
A、选用的可分性判据 J 具有可加性
B、选用的可分性判据 J 对特征数目单调不减
C、样本较多
D、Cdn >>n ( n为原特征个数,d为要选出的特征个数 )
分支定界法是计算机最擅长 的广义搜索穷举算法。
30、SPSS中,数据整理的功能主要集中在 ( AD ) 等菜单中
A、数据
B、直销
C、分析
D、转换
31、在机器学习中,解释学习器泛化性能中经常用到偏差-方差分解,下列说法正确的是 ( ACD )
A、泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的
B、方差指的是预测的期望值与真实值的偏差
C、偏差体现的是学习器预测的准确度
D、方差体现的是学习器预测的稳定性
方差反映的是模型每一次输出结果与模型输出期望之间的误差。
32、有如下数据集,现有测试样本(A=0,B=1,C=0),则以下描述正确的是:( AC)
A、测试样本属于+类的概率为0.008
B、测试样本属于-类的概率为0.08
C、测试样本属于+类的概率大于-的概率,则测试样本的类标号为+
D、测试样本属于-类的概率大于+的概率,则测试样本的类标号为-
A | B | C | 类 |
0 | 0 | 0 | + |
0 | 0 | 1 | - |
0 | 1 | 1 | - |
0 | 1 | 1 | - |
0 | 0 | 1 | + |
1 | 0 | 1 | + |
1 | 0 | 1 | - |
1 | 0 | 1 | - |
1 | 1 | 1 | + |
1 | 0 | 1 |
假设:P(A=0,B=1,C=0)=k
则k属于两个类的概率为:
P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/k
=P(A=0|+)P(B=1|+)P(C=0|+)×P(+)/k=0.4×0.2×0.2×0.5/k=0.008/k
P(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/k
=P(A=0|-)P(B=1|-)P(C=0|-)×P(-)/k=0.4×0.2×0×0.5/k=0/k
则得到,此样本的类标号是+。
33、机器学习中L1正则化和L2正则化的区别是 ( AD )
A、使用L1可以得到稀疏的权值
B、使用L1可以得到平滑的权值
C、使用L2可以得到稀疏的权值
D、使用L2可以得到平滑的权值
L1会趋向于产生少量的特征,而其他的特征都是0
L2会选择更多的特征,这些特征都会接近于0
34、下列层次聚类算法中,哪些更适合处理大数据?( ABCD )
A、CURE算法
B、ROCK算法
C、Chameleon算法
D、BIRCH算法
CURE算法:可以处理大型数据、离群点和具有非球形大小和非均匀大小的簇的数据。
ROCK算法:基于划分的k-means等算法是聚类大数据集的算法,它处理的数据对象仅限于数值型数据。
Chameleon(变色龙)算法:
BIRCH算法:BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类。
35、以下描述错误的是:(ABC)
A、SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)
B、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
C、在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
D、聚类分析可以看作是一种非监督的分类。
svm分类器是寻找最大边缘的超平面
训练误差减少与测试误差逐渐增大,是明显的过拟合的特征
36、以下 ( ACD ) 属于线性分类器最佳准则。
A、感知准则函数
B、贝叶斯分类
C、支持向量机
D、Fisher准则
线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
线性分类器三种最优准则:
Fisher 准则 :根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵 Sw 和类间离散矩阵 Sb 实现。
感知准则函数 :准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
支持向量机 :基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。
37、下列哪项叙述是正确的 ( BC )
A、Adaboost可以降低方差
B、Xgboost可以降低偏差
C、Random Forest可以降低方差
D、Decision Tree可以降低偏差
38、下列关于随机森林和Adaboost说法正确的是 ( ACD )
A、和adaboost相比,随机森林对错误和离群点更鲁棒
B、随机森林准确率不依赖于个体分类器的实例和他们之间的依赖性
C、随机森林对每次划分所考虑的属性数很偏感
D、Adaboost初始时每个训练元组被赋予相等的权重
38、以下可以有效解决过拟合的方法是:( ABD )
A、增加样本数量
B、通过特征选择减少特征数量
C、训练更多的迭代次数
D、采用正则化方法
39、数据挖掘的挖掘方法包括: ( ABCD )
A、聚类分析
B、回归分析
C、神经网络
D、决策树算法
主要有决策树 、神经网络 、回归 、聚类 、关联规则 、贝叶斯分类
40、以下说法中正确的是 ( BD )
A、SVM对噪声(如来自其他分布的噪声样本)鲁棒
B、在AdaBoost算法中,所有被分错的样本的权重更新比例相同
C、Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重
D、给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少
SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。
Bagging与Boosting的区别:取样方式不同。Bagging采用均匀取样,而Boosting根据错误率取样。Bagging的各个预测函数没有权重,而Boosting是由权重的,Bagging的各个预测函数可以并行生成,而Boosing的哥哥预测函数只能顺序生成。
41、统计模式分类问题中,当先验概率未知时,可以使用 ( AD )
A、最小最大损失准则
B、最小误判概率准则
C、最小损失准则
D、N-P判决 (聂曼-皮尔逊决策)
先验概率未知,其实就是说不能用生成模型,只能用判别模型。
最小损失准则中需要用到先验概率
最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
p(y)已知,直接使用贝叶斯公式求后验概率即可;
p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
42、给定两个特征向量,以下哪些方法可以计算这两个向量相似度 ( ABD )
A、欧式距离
B、夹角余弦(Cosine)
C、信息熵
D、曼哈顿距离
熵—是用来度量不纯度的。
43、下面哪些是基于核的机器学习算法 ( BCD )
A、Expectation Maximization
B、Radial Basis Function (径向基)
C、Linear Discrimimate Analysis
D、Support Vector Machine
核函数的作用是转化到高维空间。非线性可分变换到线性可分的过程。
44、基于二次准则函数的H-K算法较之于感知器算法的优点是 ( BD )
A、计算量小
B、可以判别问题是否线性可分
C、其解完全适用于非线性可分的情况
D、其解的适应性更好
HK算法思想:在最小均方误差准则下求得权矢量.
他相对于感知器算法的优点在于,他适用于线性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程.
45、机器学习中做特征选择时,可能用到的方法有 ( ABCD )
A、卡方
B、信息增益
C、平均互信息
D、期望交叉熵
特征提取算法分为特征选择和特征抽取两大类
46、下列模型属于机器学习生成式模型的是 ( ABCD )
A、朴素贝叶斯
B、隐马尔科夫模型(HMM)
C、马尔科夫随机场(Markov Random Fields)
D、深度信念网络(DBN)