29、EM算法是 ( B )
A、有监督
B、无监督
C、半监督
D、都不是
EM 算法通过逐步提高极大似然的下限,以此求出极大似然函数对参数的估计,为无监督算法
30、一般,k-NN最近邻方法在 ( B ) 的情况下效果较好。
A、样本较多但典型性不好
B、样本较少但典型性好
C、样本呈团状分布
D、样本呈链状分布
样本数少:kNN每次预测要计算距离,所以是带着整个样本集跑的(也有些剪辑近邻之类的会剪掉一些),所以样本数越少越好。
典型性:不仅是kNN,每个分类算法都希望样本典型性好,这样才好做分类。
31、关于机器学习算法正确的是 ( C )
A、LR模型在加入正则化项后Variance将增大
B、线性SVM是寻找最小边缘的超平面的一个分类器
C、xgboost和GDBT都是属于boosting算法
D、xgboost和随机森林都是属于bagging算法
A项加入正则化项方差应该减小,B项是间隔最大,D项只有随机森林属于bagging
32、在spss的基础分析模块中,作用是“以行列表的形式揭示数据之间的关系”的是 ( C )
A、数据描述
B、相关
C、交叉表
D、多重相应
spss中交叉分析主要用来检验两个变量之间是否存在关系,或者说是否独立,其零假设为两个变量之间没有关系。
在实际工作中,经常用交叉表来分析比例是否相等。例如分析不同的性别对不同的报纸的选择有什么不同。
33、在对问题的解空间树进行搜索的方法中,一个结点有多次机会成为活结点的是:( B )
A、动态规划
B、回溯法
C、分支限界法
D、回溯法和分支限界法
分支界限是广度优先,一旦成为扩展节点就将其所有儿子作为活结点(除了非最优解或不可行解的儿子节点,其余儿子为新的活结点)
回溯法是深度优先,可以回到此节点,此节点再次成为活结点延伸。
34、当不知道数据所处类别时,可以使用哪种技术促使同类数据与其他类数据分离 ( B )
A、分类
B、聚类
C、关联分析
D、隐马尔可夫链
35、以下几种模型方法属于判别式模型的有 ( C )
1)混合高斯模型
2)条件随机场模型
3)区分度训练
4)隐马尔科夫模型
A、1,4
B、3,4
C、2,3
D、1,2
公式上看
生成模型: 学习时先得到 P(x,y),继而得到 P(y|x)。预测时应用最大后验概率法(MAP)得到预测类别 y。
判别模型: 直接学习得到P(y|x),利用MAP得到 y。或者直接学得一个映射函数 y=f(x)。
直观上看
生成模型: 关注数据是如何生成的
判别模型: 关注类别之间的差别
生成式模型
判别式分析
朴素贝叶斯
混合高斯模型
隐马尔科夫模型(HMM)
贝叶斯网络
Sigmoid Belief Networks
马尔科夫随机场(Markov Random Fields)
深度信念网络(DBN)
判别式模型
线性回归(Linear Regression)
K近邻(KNN)
逻辑斯蒂回归(Logistic Regression)
神经网络(NN)
支持向量机(SVM)
高斯过程(Gaussian Process)
条件随机场(CRF)
CART(Classification and Regression Tree)
36、以下哪个表达式不可以转换成线性表达式?( D )
A、y = |x|
B、If x = 0, then y = 0
C、y = min(x1, x2)
D、y = x * x
37、考虑两队之间的足球比赛:队0 和队 1。假设65%的比赛队0胜出、P(Y=0)=0.65。剩余的比赛队1胜出、P(Y=1)=0.35。队0获胜的比赛中只有30%在队1的主场、P(X=1|Y=0)=0.3,而队1获胜的比赛中75%是主场获胜、P(X=1|Y=1)=0.75。则队1在主场获胜的概率即P(Y=1|X=1)为 ( A )
A、0.57
B、0.42
C、0.69
D、0.28
根据贝叶斯定理:P(Y = 1|X = 1) = P(X = 1|Y =1) * P(Y = 1)/P(X = 1)
根据全概率公式:P(X =1) = P(X = 1|Y = 1) * P(Y = 1) + P(X = 1|Y = 0) * P(Y = 0) = 0.75 * 0.35 + 0.3* 0.65 = 0.4575
所以队1取胜的概率P(Y = 1|X = 1) = 0.75 * 0.35/ 0.4575 = 0.5738
队0取胜的概率P(Y = 1|X = 0) = 1 – 0.5738= 0.4262
38、在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计 ( D )
A、EM算法
B、维特比算法
C、前向后向算法
D、极大似然估计
EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
维特比算法: 用动态规划解决HMM的预测问题,不是参数估计
前向后向:用来算概率
极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数
40、小王在经营健身器材店,其中A品牌羽毛球拍的年需求量为8,000。每个羽毛球拍每年的储存成本为2.50元,每次进货的固定成本为50元。若他每次卖完库存就去进货,他每次进货应该订购多少数量的A品牌的羽毛球拍(其它成本忽略不计)?( D )
A、238
B、239
C、293
D、283
41、解决隐马模型中预测问题的算法是 ( D )
A、前向算法
B、后向算法
C、Baum-Welch算法
D、维特比算法
评估问题:前向后向算法,是概率计算方式,即给定一个模型,通过求某固定观测序列的概率评估模型好坏选出最优模型;
学习问题:Baum-Welch算法,模型参数估计,主要通过EM无监督(只有观测序列,对数似然评估)方法训练;
解码问题(预测问题):维特比算法,序列预测,给定模型和输出序列,求最可能产生该输出序列的输入状态序列。
42、下面关于支持向量机(SVM)的描述错误的是 ( C )
A、是一种监督式学习的方法
B、可用于多分类的问题
C、是一种生成式模型
D、支持非线性的核函数
属于判别式模型,直接对条件概率p(y|x;θ)建模
43、EM算法(Exception Maximization Algorithm)是机器学习领域的一个经典算法,下面关于EM算法的表述中不正确的有 ( A )
A、EM算法属于一种分类算法
B、如果优化的目标函数是凸函数,那么EM算法一定能找到全局最优解
C、EM算法可以分为E-Step和M-Step两步
D、EM算法可用于从不完整的数据中计算最大似然估计
EM是聚类算法
44、在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题 ( D )
A、增加训练集量
B、减少神经网络隐藏层节点数
C、删除稀疏的特征
D、SVM算法中使用高斯核/RBF核代替线性核
造成过拟合的原因主要有:
1、训练数据不足,有限的训练数据
2、训练模型过度导致模型非常复杂,泛化能力差
选项D使得模型的复杂化,会充分训练数据导致过拟合
45、有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是 ( C )
A、2x+y=4
B、x+2y=5
C、x+2y=3
D、以上都不对
46、bootstrap数据是什么意思?( C )
A、有放回地从总共M个特征中抽样m个特征
B、无放回地从总共M个特征中抽样m个特征
C、有放回地从总共N个样本中抽样n个样本
D、无放回地从总共N个样本中抽样n个样本
bootstrap统计抽样方法:有放回地从总共N个样本中抽样n个样本。
基于bootstrap,有以下常用的机器学习方法
boosting
bagging
random forest(RF, 随机森林)
47、下面关于贝叶斯分类器描述错误的是 (B)
A、以贝叶斯定理为基础
B、是基于后验概率,推导出先验概率
C、可以解决有监督学习的问题
D、可以用极大似然估计法解贝叶斯分类器
根据先验概率推导后验概率,先验概率可以认为是事先已知的,后验概率为事先未知的条件分布。
贝叶斯定理认为参数未知,需要求出参数,也就是定参
48、假如使用一个较复杂的脊回归模型 (Ridge Regression),来拟合样本数据时,通过调整正则化参数λ,来调整模型复杂度。当λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是 ( C )
A、当λ增大时,偏差减小,方差减小
B、当λ增大时,偏差减小,方差增大
C、当λ增大时,偏差增大,方差减小
D、当λ增大时,偏差增大,方差增大
λ越大,对模型中参数的惩罚力度越大,因此会有更多的参数被训练为0,模型也就变得更加简单了。
模型复杂度越低,方差小,但偏差大。
49、下面有关序列模式挖掘算法的描述,错误的是 ( C )
A、AprioriAll算法和GSP算法都属于Apriori类算法,都要产生大量的候选序列
B、FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描原数据库
C、在时空的执行效率上,FreeSpan比PrefixSpan更优
D、和AprioriAll相比,GSP的执行效率比较高
Apriori类算法包括: AprioriAll和 GSP等。
在序列模式挖掘中,FreeSpan和PrefixSpan是两个常用的算法。其中,PrefixSpan是从FreeSpan中推导演化而来的。这两个算法都比传统的Apriori-like的序列模式挖掘算法(GSP)都有效。
而PrefixSpan又比FreeSpan又更有效。这是因为PrefixSpan的收缩速度比FreeSpan还要更快些。
50、关于累加器,下面哪个是错误的 ( D )
A、支持加法
B、支持数值类型
C、可并行
D、不支持自定义类型
当然支持自定义,我们经常会用到map类型的自定义累加器
51、以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:( C )
A、logistic回归
B、SVM
C、树形模型
D、神经网络
数值特征归一化方法有:线性函数归一化和零均值归一化
需要通过梯度下降法求解的模型需要数值特征归一化:如线性回归、逻辑回归、支持向量机、神经网络模型。(原因:随机梯度下降时,特征值相差大,会导致更新速度慢,需要兼顾特征值小的特征)
不需要特征归一化:决策树模型,决策树模型分裂根据信息增益,信息增益与特征归一化无关。
神经网络对数据分布本无要求,但归一化可以加快训练数据;
52、一般情况下,KNN最近邻方法在 ( D ) 情况下效果最好。
A、样本呈现团状分布
B、样本呈现链状分布
C、样本较多但典型性不好
D、样本较少但典型性好
53、有如下两组数据 {(-1,0),(-1,2),(1,2)} ,{(0,0),(1,0),(1,1)}
我们在该数据集上训练一个线性SVM模型,该模型中的支持向量是哪些 ( C )
A、(−1,2),(1,1),(1,0)
B、(−1,0),(−1,2),(1,1),(1,0)
C、(−1,0),(1,2),(0,0),(1,1)
D、(−1,0),(-1,2),(0,0),(1,0)
支持向量机是找到一条线或者一个超平面把他们分开,c的点都是在y=x+1和y=x组成的区间范围内
54、以下说法正确的是 ( D )
A、增加模型复杂度,模型在测试集上的准确率就能更好
B、L2正则化的解通常是稀疏的,L1正则化可以使得参数趋向于更平滑
C、对于PCA,我们应该选择是的模型具有最小variance的主成分
D、每次使用K-means算法得到的聚类结果可能会不一样
L1正则化可以产生稀疏权值矩阵,也就是产生一个稀疏模型,可以用于特征选择;
L2正则化可以防止模型过拟合,也就是拟合曲线更趋于平滑。
PCA应该选择协方差(Covariance)比较小的
55、如果假设h在n=65的独立抽取样本上出现r=10个错误,真实的错误率的90%的置信区间(双侧的,Z90=1.64)是 ( A )
A、0.16±0.073
B、0.16±0.73
C、1.6±0.073
D、1.6±0.73
56、下面哪些可能是一个文本语料库的特征 ( C )
1.一个文档中的词频统计
2.文档中单词的布尔特征
3.词向量
4.词性标记
5.基本语法依赖
6.整个文档
A、123
B、1234
C、12345
D、123456
57、随机抽样一致算法(random sample consensus,RANSAC),采用迭代的方式从一组包含离群的被观测数据中估算出数学模型的参数。对于RANSAC的基本假设描述不正确的是:( B )
A、给定一组(通常很小)的内群,存在一个程序,这个程序可以估算最佳解释或最适用于这一数据模型的参数
B、离群点离inliers集中区域的差距再可控范围内
C、"内群”数据可以通过几组模型的参数来叙述其分别,而“离群”数据则是不适合模型化的数据
D、数据会受噪声影响,噪声指的是离群,例如从极端的噪声或错误解释有关数据的测量或不正确的假设
58、列关于分类器的说法中不正确的是 ( C )
A、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化
B、Naive Bayes是一种特殊的Bayes分类器,其一个假定是每个变量相互条件独立。
C、Xgboost是一种优秀的集成算法,其优点包括速度快、对异常值不敏感、支持自定义损失函数等
D、随机森林中列采样的过程保证了随机性,所以就算不剪枝,也不容易出现过拟合。
59、下列关于分类器的说法中不正确的是 ( C )
A、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化
B、Naive Bayes是一种特殊的Bayes分类器,其一个假定是每个变量相互条件独立。
C、Xgboost是一种优秀的集成算法,其优点包括速度快、对异常值不敏感、支持自定义损失函数等等
D、随机森林中列采样的过程保证了随机性,所以就算不剪枝,也不容易出现过拟合。
xgboost可以自定损失函数,速度很快,但是对异常值很敏感
60、下列说法不正确的是 ( B )
A、梯度下降法是利用当前位置的负梯度作为搜索方向的方法
B、批量梯度下降和随机梯度下降相比,批量梯度下降优势是对于大规模样本效率很高
C、牛顿法和梯度下降法相比,一个劣势是求解复杂,一个优势是收敛速度加快
D、共轭梯度法仅需利用一阶导数的信息,但是收敛速度高于梯度下降法
批量梯度下降法在每次参数更新时同时迭代所有样本,优点是迭代次数少,并行计算,缺点是在样本规模大时训练缓慢;
随机梯度下降法在每次参数更新时迭代一个样本,优点是在样本规模大时训练快,缺点是迭代次数多,且容易收敛到局部最优解;
牛顿法是一种计算二阶梯度的算法,与梯度下降法相比,收敛速度更快,但计算复杂,每次参数更新都要计算Hession矩阵的逆;