NLP-大厂笔试题

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: NLP-大厂笔试题

一、判断


1、从计算角度上,Sigmoid和tanh激活函数均需要计算指数,复杂度高,而ReLU只需要一个阈值即可得到激活值。( 对)


从计算的角度,Sigmoid 和 tanh 激活函数均需要计算指数,复杂度高,而Relu 只需要一个阈值就可得到激活值。

Relu 的非饱和性可以有效的解决梯度消失问题,提供相对宽的激活边界

Relu 的单侧抑制提供了网络的稀疏表达能力

2、Seq2Seq模型在解码时可以使用贪心法或Beam Search方法。(对)


seq2seq的语言模型在解码时,每次选择出现概率最大的词作为预测值,所以属于贪心


3、逻辑回归是一个回归模型。(错)


逻辑回归是一个分类模型


Logistic回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。


4、平方损失函数适合二分类或多分类的场景,而交叉熵损失则更适合输出为连续的场景。(错)


平方损失函数适合输出为连续的场景(回归),而交叉熵损失则更适合二分类或多分类的场景


5、Dropout作用于每份小批量训练数据,由于其随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络。(对)


6、卷积操作的本质特性包括稀疏交互和参数共享。(对)


稀疏交互:使卷积核的大小远小于输入的大小; 参数共享:同一个卷积核作用在输入的每一个位置上。


通过三个重要的思想来改进机器学习系统:稀疏交互、参数共享、等变表示(平移不变性)


7、K均值聚类的核心目标是将给定的数据集划分为K个簇,并给出每个数据对应的簇中心点。(对)


8、知识图谱中的三元组遵从一种三阶谓词逻辑的表达形式。(错)


三元组(triple/triplet):也称事实(fact),是最基本的知识存储方式,表现为(主语,谓词,宾语)形式。


谓词逻辑/一阶逻辑表达式


二、单选


1、以下对k-means聚类算法解释正确的是 ( C )


A、能自动识别类的个数,随即挑选初始点为中心点计算

B、能自动识别类的个数,不是随即挑选初始点为中心点计算

C、不能自动识别类的个数,随即挑选初始点为中心点计算

D、不能自动识别类的个数,不是随即挑选初始点为中心点计算


K—Means(C均值)算法的具体步骤,可以看出需要选择类别数量,但初次选择是随机的,最终的聚类中心是不断迭代稳定以后的聚类中心


2、在统计语言模型中,通常以概率的形式描述任意语句的可能性,利用最大相似度估计进行度量,对于一些低频词,无论如何扩大训练数据,出现的频度仍然很低,下列哪种方法可以解决这一问题 (C)


A、一元切分

B、一元文法

C、数据平滑

D、N元文法


在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。我们知道,算法在训练时,语料库不可能包含所有可能出现的序列。因此,为了防止对训练样本中未出现的新序列概率估计值为零,人们发明了好多改善估计新序列出现概率的算法,即数据平滑算法。


数据平滑的作用就是解决数据稀疏问题,数据稀疏也就是存在一些参数为零。


3、以下几种优化算法中,哪一种最快 (C)


A、梯度下降法

B、牛顿法

C、BFGS(拟牛顿法)

D、Adam


牛顿法要求Hess矩阵的逆,而BFGS只求近似的矩阵,应该要快些。


牛顿法也是二阶


4、LSTM的遗忘门使用的是什么激活函数 (A)


A、Sigmoid

B、tanh

C、ReLU


LSTM中遗忘门,输入门,输出门,都是用sigmoid作为激活函数,生成候选记忆时使用tanh


5、《同义词词林》的词类分类体系中,将词分为大类、种类、小类,下列说法正确的是 (D)


A、大类以小写字母表示

B、小类以大写字母表示

C、中类以阿拉伯数字表示

D、中类有94个


大类12个, 中类94个,小类1428个,标题词3933个


大类编号为大写拉丁字母,中类为小写字母,小类为阿拉伯两位数字


6、考虑两个分类器:1)核函数取二次多项式的SVM分类器和2)没有约束的高斯混合模型(每个类别为一个高斯模型)。我们对R2空间的点进行两类分类。假设数据完全可分,SVM分类器中不加松弛惩罚项,并且假设有足够多的训练数据来训练高斯模型的协方差。下面说法正确的是?(B)


A、SVM的VC维大于高斯混合模型的VC维

B、SVM的VC维小于高斯混合模型的VC维

C、两个分类器的结构风险值相同

D、这两个分类器的VC维相同


VC维就是w的假设空间,也就是说可能得到的w值越少,VC维就越低。也就是说参数量越少,VC维越低。对w的约束越多,VC维越低。


第一:关键点在于混合高斯对于每个类别都有一个高斯模型,这样每个类别都要优化一套权重w,而SVM对于二分类只需要一套权重w就够了,从参数量来看,SVM的VC维就已经要较低了。


第二:要知道SVM就算没有软间隔(不加松弛惩罚项)它也还有一个L2正则摆在那里,这就又一步减少了SVM的VC维。


7、文本信息检索的一个核心问题是文本相似度计算,将查询条件和文本之间的相似程度数值化,从而方便比较。当文档和查询都表示成向量时,可以利用向量的内积的大小近似地表示两个向量之间的相关程度。


设有两个文档和查询抽取特征和去除停用词后分别是:

文档d1: a、b、c、a、f、b、a、f、h

文档d2: a、c

查询q: a、c、a

特征项集合为 {a、b、c、d、e、f、g、h}


如果采用二值向量表示,那么利用内积法计算出q和d1、d2的相似度分别是 ( B )


A 1、1

B 2、2

C 7、2

D 0、0


这道题目考察的是文本的词集表示,注意与词袋表示区别。把特征项看作字典,如果文档中的词在特征项中出现则为1,否则为0。用8维向量来表示文档和查询。


d1的向量表示为[1,1,1,0,0,1,0,1],特征项中的每一项,分别在文档1中查询,如果文档1中出现,那么该位置1,否则为0。


d2的向量表示为[1,0,1,0,0,0,0,0]


q的向量表示为[1,0,1,0,0,0,0,0],然后分别做内积即可。注意词集模型并不考虑词在文本中出现的频率。


8、在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。(B)


A、互信息

B、最大熵

C、卡方检验

D、最大似然比


最大熵代表了整体分布的信息,通常 具有最大熵的分布作为该随机变量的分布, 不能体现两个词的相关性,但是卡方是检验两类事务发生的相关性


最大似然比定义为有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。以似然比为基础可以构造一个服从卡方分布统计量


9、因为文本数据在可用的数据中是非常无结构的,它内部会包含很多不同类型的噪点,所以要做数据预处理。以下不是自然语言数据预处理过程的是:(B)


A、词汇规范化

B、词汇关系统一化

C、对象标准化

D、噪声移除


10、下面说法正确的是 (D)


A、梯度下降有时会陷于局部极小值,但EM算法不会。

B、SVM对噪声鲁棒。

C、当训练数据较多时更容易发生过拟合。

D、给定n个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n的增加而减小。


A、EM是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。最大优点是简单和稳定,但与梯度下降一样,容易陷入局部最优。


B、SVM对缺失数据敏感,所以噪声鲁棒性不是很好。噪声鲁棒性好要数神经网络。


C、过拟合往往是因为训练数据太少而导致。


D、相应的,训练数据越多,拟合度越好,训练误差和测试误差距离自然越小。


11、下面说法错误的是 (B)


A、遗传算法直接以适应度作为搜索信息,无需导数等其他辅助信息

B、决策树算法对离散属性和连续属性进行建模

C、Hapfield网络不仅有不动点吸引子,也有其它类型的吸引子

D、决策树是一种混合算法,它综合了多种不同的创建树的方法


决策树既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。


12、可以从新闻文本数据中分析出名词短语,动词短语,主语的技术是 (B)


A、词性标注

B、依存分析和句法分析

C、N-Gram抽取

D、词袋模型


三、多选


1、在分析句子结构时,句子的内部组织结构用树来表示,组成的结构具有显著的特点是 (ABD)


A、递归

B、中心词

C、循环

D、修饰语


2、关于Word2vec,下列哪些说法是正确的 (ABCDE)


A、Word2vec是无监督学习

B、Word2vec利用当前特征词的上下文信息实现词向量编码,是语言模型的副产品

C、Word2vec能够表示词汇之间的语义相关性

D、Word2vec没有使用完全的深度神经网络模型

E、Word2vec可以采用负采样的方式来节省计算开销


Word2Vec:半监督学习(semi-supervised),因为虽然人类不用手工标注,但是本质上模型还是有类别学习,有反向传播的过程的。


word2vec两种类型:1、CBOW 2、Skig-gram。


每种都有两种策略(加速优化策略):1、负采样 2、层级softmax。


层级softmax,使用了哈夫曼树,优化计算概率效率。


负采样不使用哈夫曼树,而是利用简单的随机采样,这种用少量噪声词汇来估计的方法,类似蒙特卡洛方法。这使得不需要计算完整的概率模型,只需要训练一个二元分类模型,用来区分真实的目标词汇和采样的噪声词汇。提高训练速度,改善所得词向量的质量


3、决策树有哪些常用的启发函数 (ABC)


A、最大信息增益

B、最大信息增益率

C、最大基尼系数

D、最大交叉熵


交叉熵,CE(X,Y)CE(X,Y):两个分布的相近程度的描述。


4、下列方法中,解决欠拟合的方法有哪些 (CD)


A、正则化方法

B、集成学习方法

C、添加新特征

D、减少正则化系数


集成学习解决过拟合


欠拟合的原因:1.模型复杂度过低。2.特征量过少。


解决方法:增加模型复杂度,添加新特征


5、以下哪些方法有助于解决模型训练过程中的过拟合问题 (ABCD)


A、正则化

B、Dropout

C、Batch Normalization

D、提前终止训练

E、梯度下降


Batch Normalization有两个功能,一个是可以加快训练和收敛速度,另外一个是可以防止过拟合。


6、下面哪些算法模型可以用来完成命名实体的任务 (CDEF)


A、GBDT

B、LDA

C、HMM

D、CRF

E、LSTM

F、seq2seq


GBDT:梯度提升决策树(回归树)


LDA是主题模型


包括:


(1) 基于规则的方法。根据语言学上预定义的规则。但是由于语言结构本身的不确定性,规则的制定上难度较大。


(2) 基于统计学的方法。利用统计学找出文本中存在的规律。


主要有隐马尔可夫(HMM)、条件随机场(CRF)模型和Viterbi算法、支持向量机(Support Vector Machine, SVM)。


(3) 神经网络。 LSTM+CRF模型,基于RNN的seq2seq模型


7、下面哪些方法有助于解决深度网络的梯度消失问题 (A C D E F G)


A、控制网络深度

B、使用Sigmoid激活函数

C、预训练+微调

D、使用ReLU激活函数

E、采用Batch Normalization

F、使用残差结构

G、使用LSTM


sigmod的导数值在【0,0.25】,多层的链式反应后,最后一层的误差相对于第一层W的梯度会非常小,就是所谓的梯度消失。


8、下列指标中,有哪些指标可用于模型评估 (A B C D)


A、准确率(Accuracy)

B、精确率(Precision)

C、召回率(Recall)

D、均方根误差(RMSE)


9、下面哪些技术跟中文分词有关 (A B C)


A、词语消歧

B、未登录词识别

C、词性标注

D、关系识别

E、句法分析

F、意图识别

G、槽位填充


目录
相关文章
|
2月前
|
数据采集 搜索推荐 API
淘宝商品评论API接口全解析:从数据采集到情感分析
淘宝商品评论API是淘宝开放平台提供的数据服务,支持开发者获取商品的用户评论、评分、时间、多媒体信息等。接口具备筛选、分页和排序功能,适用于产品优化与市场分析。文章还附有Python调用示例,演示如何请求和解析评论数据。
|
10月前
|
存储 自然语言处理 API
打破文本边界:如何进行多模态RAG评估
一般的检索增强生成(RAG,Retrieval-Augmented Generation)方法主要依赖于文本数据,常常忽略了图像中的丰富信息。那么应该如何解决呢?本文带你了解一下这个模型。
打破文本边界:如何进行多模态RAG评估
|
6月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
474 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
机器学习/深度学习 前端开发
【机器学习】机器学习30个笔试题
本文提供了一份包含30个问题的机器学习笔试试题集,覆盖了回归模型、极大似然估计、特征选择、模型评估、正则化方法、异常值检测、分类问题等多个机器学习领域的关键知识点。
1018 0
【机器学习】机器学习30个笔试题
|
存储 分布式计算 资源调度
Hadoop运行模式(三)、群起集群、配置workers、启动集群、启动HDFS、拼接、Web端查看HDFS的NameNode、Web端查看YARN的ResourceManager
Hadoop运行模式(三)、群起集群、配置workers、启动集群、启动HDFS、拼接、Web端查看HDFS的NameNode、Web端查看YARN的ResourceManager
Hadoop运行模式(三)、群起集群、配置workers、启动集群、启动HDFS、拼接、Web端查看HDFS的NameNode、Web端查看YARN的ResourceManager
|
11月前
|
Kubernetes 安全 Cloud Native
云上攻防-云原生篇&K8s安全-Kubelet未授权访问、API Server未授权访问
本文介绍了云原生环境下Kubernetes集群的安全问题及攻击方法。首先概述了云环境下的新型攻击路径,如通过虚拟机攻击云管理平台、容器逃逸控制宿主机等。接着详细解释了Kubernetes集群架构,并列举了常见组件的默认端口及其安全隐患。文章通过具体案例演示了API Server 8080和6443端口未授权访问的攻击过程,以及Kubelet 10250端口未授权访问的利用方法,展示了如何通过这些漏洞实现权限提升和横向渗透。
922 0
云上攻防-云原生篇&K8s安全-Kubelet未授权访问、API Server未授权访问
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
文章汇总并解析了百度机器学习/数据挖掘工程师/自然语言处理工程师历史笔试题目,覆盖了多分类任务激活函数、TCP首部确认号字段、GMM-HMM模型、朴素贝叶斯模型、SGD随机梯度下降法、随机森林算法、强连通图、红黑树和完全二叉树的高度、最长公共前后缀、冒泡排序比较次数、C4.5属性划分标准、语言模型类型、分词算法、贝叶斯决策理论、样本信息熵、数据降维方法、分箱方法、物理地址计算、分时系统响应时间分析、小顶堆删除调整等多个知识点。
149 1
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
|
11月前
|
PyTorch 测试技术 算法框架/工具
Python中Thop库的常见用法和代码示例
肆十二在B站分享了关于THOP(Torch-OpCounter)的实战教学视频。THOP是一个用于计算PyTorch模型操作数和计算量的工具,帮助开发者评估模型复杂度和性能。本文介绍了THOP的安装、使用方法及基本用例,包括如何计算模型的FLOPs和参数量。
929 0
|
存储 缓存 JSON
详解HTTP四种请求:POST、GET、DELETE、PUT
【4月更文挑战第3天】
66170 3
详解HTTP四种请求:POST、GET、DELETE、PUT
|
C++ 容器
【C++STL基础入门】stack栈的增删查等操作的使用
【C++STL基础入门】stack栈的增删查等操作的使用
546 0

热门文章

最新文章