一、单选
1、当在一个决策树中划分一个节点时,以下关于“信息增益”的论述正确的是 ( C )
1.较不纯的节点需要更多的信息来描述总体
2.信息增益可以通过熵来推导
3.信息增益偏向于选择大量值的属性
A、1
B、2
C、2和3
D、所有都对
不纯度指的是基尼指数
信息增益就是节点划分前后熵的差值,差值越大越好
纯度高的节点需要较少的信息描述,不纯的节点需要更多的信息描述。
2、有关机器学习算法,以下说法中不正确的是:( D )
A、之所以说监督学习和无监督学习之间并不存在一条严格的界限,是因为很难客观地区分监督者给定的一个值是特征(feature)还是目标(target)。
B、当深度学习网络的最后一层是一个softmax分类器时,我们可以把网络的前面部分看成是一种表示学习(Representation Learning)的计算单元。
C、一个聚类算法将样本分成k个不同的聚类(cluster),从另一个角度说,这个聚类算法其实是为样本中的每一个实例提供了一种k维的one-hot编码方式
D、随机梯度下降(Stochastic Gradient Descent)算法是用小规模的样本近似估计梯度的方法,适合在大规模数据上训练深度神经网络,但在逻辑回归、SVM等算法中的作用很有限。
SGD是单个样本,mini-batch GD是小批量
3、设f(x)在x0可导,则
4、以下属于生成式模型的是:( C )
A、SVM
B、随机森林
C、隐马尔可夫模型HMM
D、逻辑回归
常见的生成式模型有 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等
5、假设随机变量X与Y都服从正态分布,且N(0,δ2),且P(x≤1,Y≤-1)=1/4,则P(x>1,Y>-1)的值是 (A)
A、1/4
B、2/5
C、2/4
D、3/4
6、类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?( B )
A、伪逆法
B、感知器算法
C、基于二次准则的H-K算法
D、势函数法
伪逆法:径向基(RBF)神经网络的训练算法,径向基解决的就是线性不可分的情况。
感知器算法:线性分类模型。 (它适用于线性可分和非线性可分的情况)
H-K算法:在最小均方误差准则下求得权矢量,二次准则解决非线性问题。
势函数法:势函数非线性。
7、Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:( C )
A、各类别的先验概率P©是相等的
B、以0为均值,sqr(2)/2为标准差的正态分布
C、特征变量X的各个维度是类别条件独立随机变量
D、P(X|C)是高斯分布
朴素贝叶斯的条件就是每个变量相互独立
8、假设我们想估计A和B这两个参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止,该算法是 ( C ) 的算法思想。
A、极大似然法
B、朴素贝叶斯分类器
C、EM算法
D、贝叶斯决策论
EM是一种迭代式的方法,它的基本思想就是:若样本服从的分布参数θ已知,则可以根据已观测到的训练样本推断出隐变量Z的期望值(E步),若Z的值已知则运用最大似然法估计出新的θ值(M步)。重复这个过程直到Z和θ值不再发生变化。
9、
A、(-∞,+∞)
B、(-∞,0)
C、(0,+∞)
D、没有单调递增区间
求导,令导数为零。一阶导大于0即单调递增
10、二分类任务中,有三个分类器h1,h2,h3,三个测试样本x1,x2,x3。假设1表示分类结果正确,0表示错误,h1在x1,x2,x3的结果分别(1,1,0),h2,h3分别为(0,1,1),(1,0,1),按投票法集成三个分类器,下列说法正确的是 ( A ) (注:0,1不是类别标签,而是模型预测结果是正确还是错误的意思)
A、集成提高了性能
B、集成没有效果
C、集成降低了性能
D、集成效果不能确定
分类器集成,其实就是集成学习,通过构建并结合多个学习器来完成学习任务。一般结构是:先产生一组“个体学习器”,再用某种策略将它们结合起来。结合策略主要有平均法、投票法和学习法等。这些策略使得集成提高了性能。
11、在测试一假设h时,发现在一包含n=1000个随机抽取样例的样本s上,它出现r=300个错误,计算Errors(h)的标准差 ( A )
A、0.0145
B、0.145
C、1.45
D、14.5
二项分布:300/1000=0.3
期望 np
方差 np(1-p) 1000×0.3×0.7=210
标准差 1/n *(np(1-p))^1/2 1/1000×210^1/2 =0.0145
12、如下表是用户是否使用某产品的调查结果 ( C )
UID | 年龄 | 地区 | 学历 | 收入 | 用户是否使用调查产品 |
1 | 低 | 北方 | 博士 | 低 | 是 |
2 | 高 | 北方 | 本科 | 中 | 否 |
3 | 低 | 南方 | 本科 | 高 | 否 |
4 | 高 | 北方 | 研究生 | 中 | 是 |
请计算年龄,地区,学历,收入中对用户是否使用调查产品信息增益最大的属性(Log23≈0.63)
A、年龄
B、地区
C、学历
D、收入
所有本科学历都不使用调查产品,所有非本科学历都使用了调查产品。这种可以确定的划分导致信息熵为0,信息增益最大。
信息增益:是指区分度。如果对于一个属性,其结果都是等概率出现的,即信息熵为1,信息增益为0,那么这个属性就没有任何区分度,无实际意义。就像本题中年龄一样,年龄高的的人是否接受调查的人都是1/2,年龄低的人是否接受调查的人也分别占1/2,那么年龄属性没有任何实际意义,有没有都一样了。
13、假定某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是:( B )
A、被重复的在模型中作用被加强
B、模型效果精度降低
C、如果所有特征都被重复一遍,则预测结果不发生变化
朴素贝叶斯的核心在于它假设特征向量的所有分量之间是独立的
14、均值移动(Mean Shift)算法的核心思想是: ( B )
A、构建Hessian矩阵,判别当前点是否为比邻域更亮或更暗的点,由此来确定关键点的位置
B、找到概率密度梯度为零的采样点,并以此作为特征空间聚类的模式点
C、从每一个点开始作为一个类,然后迭代的融合最近的类。能创建一个树形层次结构的聚类模型
对于Mean Shift算法,是一个迭代的步骤,即先算出当前点的偏移均值,将该点移动到此偏移均值,然后以此为新的起始点,继续移动,直到满足最终的条件。
15、考虑如下数据集,其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮,计算项集{e}, {b, d}, {b, d, e}的支持度: ( A )
A、s({e}) =0.8 s({b, d})= 0.2 s({b, d, e})= 0.2
B、s({e}) =0.7 s({b, d})= 0.3 s({b, d, e})= 0.3
C、s({e}) =0.6 s({b, d})= 0.4 s({b, d, e})= 0.3
D、s({e}) =0.8 s({b, d})= 0.1 s({b, d, e})= 0.1
置信度计算规则为: 同时购买商品A和商品B的交易次数/购买了商品A的次数
支持度计算规则为: 同时购买了商品A和商品B的交易次数/总的交易次数
s({e}) =8/10=0.8 s({b, d})=2/10= 0.2 s({b, d, e}) = 2/10= 0.2
16、SPSS的界面中,以下是主窗口是 ( B )
A、语法编辑窗口
B、数据编辑窗口
C、结果输出窗口
D、脚本编辑窗口
17、下列关于线性回归说法错误的是 ( D )
A、在现有模型上,加入新的变量,所得到的R^2的值总会增加
B、线性回归的前提假设之一是残差必须服从独立正态分布
C、残差的方差无偏估计是SSE/(n-p)
D、自变量和残差不一定保持相互独立
样本是在总体之中随机抽取出来的。
因变量Y在实直线上是连续的,
残差项是独立且相同分布的(iid),也就是说,残差是独立随机的,且服从高斯分布。
这些假设意味着残差项不依赖自变量的值,所以εi 和 自变量x(预测变量)之间是相互独立的。
在这些假设下,建立一个显式线性回归作为条件预期模型的简单线性回归,
可以表示为:E(Yi |Xi =xi)=α +βxi;
18、关于朴素贝叶斯分类算法,描述正确的是:( A )
A、它假设属性之间相互独立
B、根据先验概率计算后验概率
C、对于给定的待分类项X={a1,a2,…,an},求解在此项出现的条件下各个类别 yi 出现的概率,哪个P(yi|X)最大,就把此待分类项归属于哪个类别。
D、有最小错误率判断规则和最小风险判断规则
朴素贝叶斯定理体现了后验概率 P(y|x) 、先验概率 P(y) 、条件概率 P(x|y)之间的关系: P(y|x)=P(x|y)·P(y)/P(x)。朴素贝叶斯之所以叫“朴素”是因为它假设输入的不同特征之间是独立的。构建朴素贝叶斯分类器的步骤如下:
1、根据训练样例分别计算每个类别出现的概率P(yi)
2、对每个特征属性计算所有划分的条件概率P(xi|yi)
3、对每个类别计算P(X|yi)*P(yi)
4、选择3步骤中数值最大项作为X的类别yk。
19、目标变量在训练集上的7个实际值为[1,1,1,1,0,0,0],目标变量的熵近似值是(log3/7=-0.847,log4/7=-0.560)( A )
A、0.683
B、-0.683
C、0.724
D、-0.243
P(X=xi) = Pi
H(X) = -∑Pi logPi
H(X) = -(3/7 log3/7 + 4/7 log4/7)=0.683
20、如果假设h在n=65的独立抽取样本上出现 r=10个错误,真实的错误率的90%的置信区间(双侧的,Z90=1.64)是 ( A )
A、0.16±0.073
B、0.16±0.73
C、1.6±0.073
D、1.6±0.73
样本数为:n=65,假设h在n个样本上所犯的错误为r=10,所以样本错误率为erros(h)= 10/65 = 2/13
error(h)的N%的置信区间为:
当N=90时,查数理统计得出:ZN = 1.64,可得真错误率的90%的置信区间
21、根据是否需要标注数据,机器学习方法可以分为有监督学习和无监督学习。监督学习中的训练集用于 ( B )
A、定量评价机器学习性能
B、估算模型
C、验证模型
D、定性评价机器学习性能
定量评价模型需要使用评价指标,数值来进行评价。
估算模型需要使用训练集。
验证模型需要使用测试集。
定性评估模型需要使用:模型的描述。
22、有关机器学习分类算法的Precision和Recall,以下定义中正确的是(假定tp = true positive, tn = true negative, fp = false positive, fn = false negative) ( A )
A、Precision= tp / (tp + fp), Recall = tp / (tp + fn)
B、Precision = tp / (tn + fp), Recall = tp /(tp + fn)
C、Precision = tp / (tn + fn), Recall = tp /(tp + fp)
D、Precision = tp / (tp + fp), Recall = tp /(tn + fn)
1、精确度对应预测正确的占预测情况中正类(真正类+假正类)的比例;
2、召回率对应预测正确的占真实情况正类(真正类+假负类)的比例。
23、请在如下列表中,求出其最大子段和:( B )
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
x[i] | 1 | 3 | -5 | 3 | -2 | 6 | -5 | 3 |
A、8
B、7
C、9
D、10
取其中的连续一段,求和。哪一段的和最大,哪一段就是最大子段,他的和就是最大子段和。456这一段的和是7,是最大子段和
24、优化问题
max 4x1 + 2x2 + 4x3 + 2x4 + x5 + x6
s.t. 4x1 + 4x2 + 6x3 + 2x4 + 3x5 + 2x6<= 11
x1, x2, x3, x4, x5, x6 ∈{0,1}
的最优目标函数值为 ( B)
A、9
B、8
C、7
D、6
目标函数要max ,故讨论约束条件等于11 的条件。
因为只能取0,1,所以可以看一下如果这个数取0,相当于“损失”了多少,找出损失最小的组合就行了
目标:
4 2 4 2 1 1
条件:
4 4 6 2 3 2
损失值分别是
0 2 2 0 2 1
损失最小就是1 0 0 0 1 1
25、关于支持向量机SVM,下列说法错误的是 ( C )
A、L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力
B、Hinge 损失函数,作用是最小化经验分类错误
C、分类间隔为1/||w||,||w||代表向量的模
D、当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习
分类间隔是2/||w||
26、下列算法常用于聚类的问题是 ( A )
A、k-means
B、逻辑回归模型
C、决策树模型
D、随机森林模型
k-means:k均值聚类算法,其随机选择k个点作为初始聚类中心,然后计算每个对象与k个点的距离并形成k个簇,每次计算都会重新计算聚类中心;
逻辑回归模型:拟合一条曲线,一般用于二分类问题,估计某种事物的可能性。注意,这里的可能性不指概率;
决策树模型:直观运用概率分析的一种图解法;
随机森林模型:包含多个决策树的分类器。
27、一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:( B )
A、二分类问题
B、多分类问题
C、层次聚类问题
D、k-中心点聚类问题
E、回归问题
F、结构分析问题
28、下面关于Adaboost算法的描述中,错误的是 ( D )
A、AdaBoost模型是弱分类器的线性组合:
B、提升树是以分类树或者回归树为基本分类器的提升办法,提升树被认为是统计学习中最有效的办法之一
C、AdaBoost算法的一个解释是该算法实际上是前向分步算法的一个实现,在这个方法里,模型是加法模型,损失函数是指数损失,算法是前向分步算法。
D、AdaBoost同时独立地学习多个弱分类器
Adaboost算法的思想是在前一轮识别过程中识别错误的样本会在下一轮中提升权重,而那些识别正确的样本会降低权重。所以不是独立的学习弱分类器