一、判断

1、从计算角度上，Sigmoid和tanh激活函数均需要计算指数，复杂度高，而ReLU只需要一个阈值即可得到激活值。（对）

从计算的角度，Sigmoid 和 tanh 激活函数均需要计算指数，复杂度高，而Relu 只需要一个阈值就可得到激活值。

Relu 的非饱和性可以有效的解决梯度消失问题，提供相对宽的激活边界

Relu 的单侧抑制提供了网络的稀疏表达能力

2、Seq2Seq模型在解码时可以使用贪心法或Beam Search方法。（对）

seq2seq的语言模型在解码时，每次选择出现概率最大的词作为预测值，所以属于贪心

3、逻辑回归是一个回归模型。（错）

逻辑回归是一个分类模型

Logistic回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。

4、平方损失函数适合二分类或多分类的场景，而交叉熵损失则更适合输出为连续的场景。（错）

平方损失函数适合输出为连续的场景（回归），而交叉熵损失则更适合二分类或多分类的场景

5、Dropout作用于每份小批量训练数据，由于其随机丢弃部分神经元的机制，相当于每次迭代都在训练不同结构的神经网络。（对）

6、卷积操作的本质特性包括稀疏交互和参数共享。（对）

稀疏交互：使卷积核的大小远小于输入的大小；参数共享：同一个卷积核作用在输入的每一个位置上。

通过三个重要的思想来改进机器学习系统：稀疏交互、参数共享、等变表示（平移不变性）

7、K均值聚类的核心目标是将给定的数据集划分为K个簇，并给出每个数据对应的簇中心点。（对）

8、知识图谱中的三元组遵从一种三阶谓词逻辑的表达形式。（错）

三元组（triple/triplet）：也称事实（fact），是最基本的知识存储方式，表现为（主语，谓词，宾语）形式。

谓词逻辑/一阶逻辑表达式

二、单选

1、以下对k-means聚类算法解释正确的是（ C ）

A、能自动识别类的个数，随即挑选初始点为中心点计算

B、能自动识别类的个数，不是随即挑选初始点为中心点计算

C、不能自动识别类的个数，随即挑选初始点为中心点计算

D、不能自动识别类的个数，不是随即挑选初始点为中心点计算

K—Means（C均值）算法的具体步骤，可以看出需要选择类别数量，但初次选择是随机的，最终的聚类中心是不断迭代稳定以后的聚类中心

2、在统计语言模型中，通常以概率的形式描述任意语句的可能性，利用最大相似度估计进行度量，对于一些低频词，无论如何扩大训练数据，出现的频度仍然很低，下列哪种方法可以解决这一问题（C）

A、一元切分

B、一元文法

C、数据平滑

D、N元文法

在自然语言处理中，经常要计算单词序列（句子）出现的概率估计。我们知道，算法在训练时，语料库不可能包含所有可能出现的序列。因此，为了防止对训练样本中未出现的新序列概率估计值为零，人们发明了好多改善估计新序列出现概率的算法，即数据平滑算法。

数据平滑的作用就是解决数据稀疏问题，数据稀疏也就是存在一些参数为零。

3、以下几种优化算法中，哪一种最快（C）

A、梯度下降法

B、牛顿法

C、BFGS（拟牛顿法）

D、Adam

牛顿法要求Hess矩阵的逆，而BFGS只求近似的矩阵，应该要快些。

牛顿法也是二阶

4、LSTM的遗忘门使用的是什么激活函数（A）

A、Sigmoid

B、tanh

C、ReLU

LSTM中遗忘门，输入门，输出门，都是用sigmoid作为激活函数，生成候选记忆时使用tanh

5、《同义词词林》的词类分类体系中，将词分为大类、种类、小类，下列说法正确的是（D）

A、大类以小写字母表示

B、小类以大写字母表示

C、中类以阿拉伯数字表示

D、中类有94个

大类12个，中类94个，小类1428个，标题词3933个

大类编号为大写拉丁字母，中类为小写字母，小类为阿拉伯两位数字

6、考虑两个分类器：1）核函数取二次多项式的SVM分类器和2）没有约束的高斯混合模型（每个类别为一个高斯模型）。我们对R2空间的点进行两类分类。假设数据完全可分，SVM分类器中不加松弛惩罚项，并且假设有足够多的训练数据来训练高斯模型的协方差。下面说法正确的是？（B）

A、SVM的VC维大于高斯混合模型的VC维

B、SVM的VC维小于高斯混合模型的VC维

C、两个分类器的结构风险值相同

D、这两个分类器的VC维相同

VC维就是w的假设空间，也就是说可能得到的w值越少，VC维就越低。也就是说参数量越少，VC维越低。对w的约束越多，VC维越低。

第一：关键点在于混合高斯对于每个类别都有一个高斯模型，这样每个类别都要优化一套权重w，而SVM对于二分类只需要一套权重w就够了，从参数量来看，SVM的VC维就已经要较低了。

第二：要知道SVM就算没有软间隔(不加松弛惩罚项)它也还有一个L2正则摆在那里，这就又一步减少了SVM的VC维。

7、文本信息检索的一个核心问题是文本相似度计算，将查询条件和文本之间的相似程度数值化，从而方便比较。当文档和查询都表示成向量时，可以利用向量的内积的大小近似地表示两个向量之间的相关程度。

设有两个文档和查询抽取特征和去除停用词后分别是：

文档d1: a、b、c、a、f、b、a、f、h

文档d2: a、c

查询q: a、c、a

特征项集合为 {a、b、c、d、e、f、g、h}

如果采用二值向量表示，那么利用内积法计算出q和d1、d2的相似度分别是（ B ）

A 1、1

B 2、2

C 7、2

D 0、0

这道题目考察的是文本的词集表示，注意与词袋表示区别。把特征项看作字典，如果文档中的词在特征项中出现则为1，否则为0。用8维向量来表示文档和查询。

d1的向量表示为[1,1,1,0,0,1,0,1]，特征项中的每一项，分别在文档1中查询，如果文档1中出现，那么该位置1，否则为0。

d2的向量表示为[1,0,1,0,0,0,0,0]

q的向量表示为[1,0,1,0,0,0,0,0]，然后分别做内积即可。注意词集模型并不考虑词在文本中出现的频率。

8、在大规模的语料中，挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。（B）

A、互信息

B、最大熵

C、卡方检验

D、最大似然比

最大熵代表了整体分布的信息，通常具有最大熵的分布作为该随机变量的分布，不能体现两个词的相关性，但是卡方是检验两类事务发生的相关性

最大似然比定义为有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。以似然比为基础可以构造一个服从卡方分布统计量

9、因为文本数据在可用的数据中是非常无结构的，它内部会包含很多不同类型的噪点，所以要做数据预处理。以下不是自然语言数据预处理过程的是：（B）

A、词汇规范化

B、词汇关系统一化

C、对象标准化

D、噪声移除

10、下面说法正确的是（D）

A、梯度下降有时会陷于局部极小值，但EM算法不会。

B、SVM对噪声鲁棒。

C、当训练数据较多时更容易发生过拟合。

D、给定ｎ个数据点，如果其中一半用于训练，另一半用于测试，则训练误差和测试误差之间的差别会随着ｎ的增加而减小。

A、EM是一种迭代算法，用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。最大优点是简单和稳定，但与梯度下降一样，容易陷入局部最优。

B、SVM对缺失数据敏感，所以噪声鲁棒性不是很好。噪声鲁棒性好要数神经网络。

C、过拟合往往是因为训练数据太少而导致。

D、相应的，训练数据越多，拟合度越好，训练误差和测试误差距离自然越小。

11、下面说法错误的是（B）

A、遗传算法直接以适应度作为搜索信息,无需导数等其他辅助信息

B、决策树算法对离散属性和连续属性进行建模

C、Hapfield网络不仅有不动点吸引子,也有其它类型的吸引子

D、决策树是一种混合算法,它综合了多种不同的创建树的方法

决策树既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。

12、可以从新闻文本数据中分析出名词短语，动词短语，主语的技术是（B）

A、词性标注

B、依存分析和句法分析

C、N-Gram抽取

D、词袋模型

三、多选

1、在分析句子结构时，句子的内部组织结构用树来表示，组成的结构具有显著的特点是（ABD）

A、递归

B、中心词

C、循环

D、修饰语

2、关于Word2vec，下列哪些说法是正确的（ABCDE）

A、Word2vec是无监督学习

B、Word2vec利用当前特征词的上下文信息实现词向量编码，是语言模型的副产品

C、Word2vec能够表示词汇之间的语义相关性

D、Word2vec没有使用完全的深度神经网络模型

E、Word2vec可以采用负采样的方式来节省计算开销

Word2Vec：半监督学习（semi-supervised），因为虽然人类不用手工标注，但是本质上模型还是有类别学习，有反向传播的过程的。

word2vec两种类型：1、CBOW 2、Skig-gram。

每种都有两种策略（加速优化策略）：1、负采样 2、层级softmax。

层级softmax，使用了哈夫曼树，优化计算概率效率。

负采样不使用哈夫曼树，而是利用简单的随机采样，这种用少量噪声词汇来估计的方法，类似蒙特卡洛方法。这使得不需要计算完整的概率模型，只需要训练一个二元分类模型，用来区分真实的目标词汇和采样的噪声词汇。提高训练速度，改善所得词向量的质量

3、决策树有哪些常用的启发函数（ABC）

A、最大信息增益

B、最大信息增益率

C、最大基尼系数

D、最大交叉熵

交叉熵，CE(X,Y)CE(X,Y)：两个分布的相近程度的描述。

4、下列方法中，解决欠拟合的方法有哪些（CD）

A、正则化方法

B、集成学习方法

C、添加新特征

D、减少正则化系数

集成学习解决过拟合

欠拟合的原因：1.模型复杂度过低。2.特征量过少。

解决方法：增加模型复杂度，添加新特征

5、以下哪些方法有助于解决模型训练过程中的过拟合问题（ABCD）

A、正则化

B、Dropout

C、Batch Normalization

D、提前终止训练

E、梯度下降

Batch Normalization有两个功能，一个是可以加快训练和收敛速度，另外一个是可以防止过拟合。

6、下面哪些算法模型可以用来完成命名实体的任务（CDEF）

A、GBDT

B、LDA

C、HMM

D、CRF

E、LSTM

F、seq2seq

GBDT：梯度提升决策树（回归树）

LDA是主题模型

包括：

(1) 基于规则的方法。根据语言学上预定义的规则。但是由于语言结构本身的不确定性，规则的制定上难度较大。

(2) 基于统计学的方法。利用统计学找出文本中存在的规律。

主要有隐马尔可夫(HMM)、条件随机场(CRF)模型和Viterbi算法、支持向量机（Support Vector Machine, SVM）。

(3) 神经网络。 LSTM+CRF模型，基于RNN的seq2seq模型

7、下面哪些方法有助于解决深度网络的梯度消失问题（A C D E F G）

A、控制网络深度

B、使用Sigmoid激活函数

C、预训练+微调

D、使用ReLU激活函数

E、采用Batch Normalization

F、使用残差结构

G、使用LSTM

sigmod的导数值在【0，0.25】，多层的链式反应后，最后一层的误差相对于第一层W的梯度会非常小，就是所谓的梯度消失。

8、下列指标中，有哪些指标可用于模型评估（A B C D）

A、准确率（Accuracy）

B、精确率（Precision）

C、召回率（Recall）

D、均方根误差（RMSE）

9、下面哪些技术跟中文分词有关（A B C）

A、词语消歧

B、未登录词识别

C、词性标注

D、关系识别

E、句法分析

F、意图识别

G、槽位填充

NLP-大厂笔试题

一、判断

二、单选

三、多选

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

NLP-大厂笔试题

一、判断

二、单选

三、多选

热门文章

最新文章

相关电子书