请不要在题上写画答案,写在答题纸上
假设你训练SVM后,得到一个线性决策边界,你认为该模型欠拟合。在下次迭代训练模型时,应该考虑:
A、增加训练数据
B、减少训练数据
C、计算更多变量
D、减少特征
答案:C假设你训练了一个基于线性核的SVM,多项式阶数为2,在训练集和测试集上准确率都为100%。 如果增加模型复杂度或核函数的多项式阶数,将会发生什么?
A、导致过拟合
B、导致欠拟合
C、无影响,因为模型已达100%准确率
D、以上均不正确
答案:(A)在数据集中有4个变量,如A,B,C和D.执行了以下操作: 步骤1:使用上述变量创建另外两个变量,即E = A + 3 * B和F = B + 5 * C + D。 步骤2:然后只使用变量E和F建立了一个随机森林模型。 上述步骤可以表示降维方法吗?
A、真
B、假
答案:A在庞大的数据集上使用Logistic回归模型需要很长时间才能训练,如何花费更少的时间,并给出比较相近的精度?
A、降低学习率,减少迭代次数
B、降低学习率,增加迭代次数
C、提高学习率,增加迭代次数
D、增加学习率,减少迭代次数
答案:D下面哪一项对梯度下降(GD)和随机梯度下降(SGD)的描述是正确的? 1 在 GD 和 SGD 中,每一次迭代中都是更新一组参数以最小化损失函数。 2 在 SGD 中,每一次迭代都需要遍历训练集中的所有样本以更新一次参数。 3 在 GD 中,每一次迭代需要使用整个训练集或子训练集的数据更新一个参数。
A、只有 1
B、只有 2
C、只有 3
D、都正确
答案:A以下是目标变量在训练集上的 8 个实际值 [0,0,0,1,1,1,1,1],目标变量的熵是所少?
A、-(5/8 log(5/8) + 3/8 log(3/8))
B、5/8 log(5/8) + 3/8 log(3/8)
C、3/8 log(5/8) + 5/8 log(3/8)
D、5/8 log(3/8) – 3/8 log(5/8)
答案:A请选择下面可以应用隐马尔科夫(HMM)模型的选项
A、基因序列数据集
B、电影浏览数据集
C、股票市场数据集
D、所有以上
答案:D数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是
A、单个模型之间有高相关性
B、单个模型之间有低相关性
C、在集成学习中使用“平均权重”而不是“投票”会比较好
D、单个模型都是用的一个算法
答案:B以下对经典K-means聚类算法解释正确的是:
A、能自动识别类的个数,随机挑选初始点为中心点计算
B、能自动识别类的个数,不是随机挑选初始点为中心点计算
C、不能自动识别类的个数,随机挑选初始点为中心点计算
D、不能自动识别类的个数,不是随机挑选初始点为中心点计算
答案:C
10.下列属于无监督学习的是:
A、k-means
B、SVM
C、最大熵
D、CRF
答案:A
11.以下哪个是常见的时间序列算法模型:
A、RSI
B、MACD
C、ARMA
D、KDJ
答案:C
12.在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?()
A、学习率(learning rate)太低
B、正则参数太高
C、陷入局部最小值
D、以上都有可能
案是:D
13.构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接?
A、循环神经网络
B、卷积神经网络
C、限制玻尔兹曼机
D、都不是
案是:A
14.下列哪个神经网络结构会发生权重共享?
A、卷积神经网络
B、循环神经网络
C、全连接神经网络
D、选项A和B
答案:AB
15.批规范化(Batch Normalization)的好处都有啥?
A、在将所有的输入传递到下一层之前对其进行归一化(更改)
B、它将权重的归一化平均值和标准差
C、它是一种非常有效的反向传播(BP)方法
D、这些均不是
答案:A
16.在一个神经网络中,下面哪种方法可以用来处理过拟合?
A、Dropout
B、分批归一化(Batch Normalization)
C、 正则化(regularization)
D、都可以
答案:D
17.下列哪项关于模型能力(model capacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)
A、隐藏层层数增加,模型能力增加
B、Dropout的比例增加,模型能力增加
C、学习率增加,模型能力增加
D、都不正确
答案:D
18.输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小为():
A、95
B、96
C、97
D、98
答案: C
输出尺寸=(输入尺寸-filter尺寸+2*padding)/stride+1
19.下面有关分类算法的准确率,召回率,F1 值的描述,错误的是?
A、准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率
C、正确率、召回率和 F 值取值都在0和1之间,数值越接近0,查准率或查全率就越高
D、为了解决准确率和召回率冲突问题,引入了F1分数
答案: C
20.在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果()
A、可以做特征选择,并在一定程度上防止过拟合
B、能解决维度灾难问题
C、能加快计算速度
D、可以获得更准确的结果
答案: A