23、在给定文件中查找与设定条件相符字符串的命令==( B )==
A、gzip
B、grep
C、ls
D、find
24、字符串
"//^▽^//\n"
的长度是 ( C )
A、6
B、7
C、8
D、9
\n是转义字符,算一个
25、设 q (n,m)是将正整数 n 划分成最大加数不大于 m 的若干不同正整数之和的划分数,则q(n,m)为 (B )
n==m时,q(n,m)= 划分为m个数的种类 + 划分为<m个数的种类 =1 + q(n,m-1) =1 + q(n,n-1);
n>m时,q(n,m)= 划分为m个数的种类 + 划分为<m个数的种类
划分为<m个数的种类 = q(n,m-1)
n划分为m个数的种类 :这m个数,每个数先分配一个1个资源,剩下n-m个资源,然后随意分给这m个数。为q(n-m,m)
所以q(n,m)= q(n,m-1) + q(n-m,m);
26、一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(MLE)和最小均方误差(LMSE)估计出现人头的概率哪个大?( B )
A、MLE = MSE
B、MLE > MSE
C、MLE < MSE
前提:一般假设其满足正态分布函数的特性的情况下,最大似然估计与最小二乘估计是等价的。
27、下面数据结构能够支持随机的插入和删除操作、并具有较好的性能的是==( A )==
A、链表和哈希表
B、数组和链表
C、哈希表和队列
D、堆栈和双向队列
链表删除和插入操作时间复杂度为O(1), 数组插入和删除时间复杂度为O(n)。 哈希的插入很快,接近O(1)
数组的插入和删除都很慢, 从中间插入一位,之后的都要往后移,删除同理
28、以下开源软件中经常被用作消息队列的是哪个 ( A )
A、Kafka
B、MongoDB
C、Hadoop
D、Spark
卡夫卡(Kafka)常作为消息队列,MongoDB是一种数据库,hadoop是分布式集群,Spark是基于hadoop的一种分布式计算框架。
29、对立的两方争夺一个价值为1的物品,双方可以采取的策略可以分为鸽子策略和鹰策略。如果双方都是鸽子策略,那么双方各有1/2的几率获得该物品;如果双方均为鹰策略,那么双方各有1/2的概率取胜,胜方获得价值为1的物品,付出价值为1的代价,负方付出价值为1的代价;如果一方为鸽子策略,一方为鹰策略,那么鹰策略获得价值为1的物品。在争夺的结果出来之前,没人知道对方是鸽子策略还是鹰策略。当选择鸽子策略的人的比例是某一个值时,选择鸽子策略和选择鹰策略的预期收益是相同的。那么该值是 ( C )
A、0.2
B、0.4
C、0.5
D、0.7
E、0.8
选鸽概率设为P, 鹰为1-P。
当选择鸽时,对手是鸽的概率为P,此时赢的概率为1/2,获得价值为1,输的概率为1/2,失去价值为0,则预期收益为P * P * (1/2 * 1 + 1/2 * 0);对手为鹰的概率为1-P,此时只有一个结果,预期收益为0。
当选择鹰时,对手为鸽的概率为P,此时只有一个结果,鹰获得价值为1,则预期收益为(1-P)* P * 1;对手为鹰的概率为1-P,此时赢的概率为1/2,获得价值为0,输的概率为1/2,失去价值为1,则预期收益为 (1-P)* (1-P) ( 1/2 * 0 + 1/2 *(-1) )。
所以得到等式P * P * (1/2 * 1 + 1/2 * 0)=(1-P)* P * 1 +(1-P)* (1-P ) ( 1/2 * 0 + 1/2 * (-1) ) 解得 P=1/2
30、N-gram是一种简单有效的统计语言模型,通常n采用1-3之间的值,它们分别称为unigram、bigram和trigram。现有给定训练语料合计三个文档如下:
D1: John read Moby Dick
D2: Mary read a different book,
D3: She read a book by Cher
利用bigram求出句子“John read a book”的概率大约是 ( B )
A、1
B、0.06
C、0.09
D、0.0008
unigram,bigram,trigram,是自然语言处理(NLP)中的问题。父词条:n-gram.
unigram: 单个word
bigram: 双word
trigram:3 word
2元组s1s2…sn在训练语料库中出现的次数
2-gram公式,P(s1,s2,s3…) = P(s1) * P(s2|s1) * P(s3|s2)…p(sn|sn-1)
P(john|前面) = 1/3
P(read | John) = 1
P(a|read) = 2/3
P(book|a) = 1/2 ,在语料库中a出现了2次,出现 <a, different > <a, book>各占1/2,所以<a,book>=1/2
P( 最后|book) = 1/2, book出现两次(D2,D3),其中一次是在句子结尾处(D2)
31、现在有一个tcp服务端监听了80端口,问最多同时能建立多少连接 ( D )
A、1023
B、65534
C、64511
D、非常多基本和内存大小相关
32、基于统计的分词方法为 ( D )
A、正向最大匹配法
B、逆向最大匹配法
C、最少切分
D、条件随机场
目前的分词方法归纳起来有3 类:
**第一类是基于语法和规则的分词法。**其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统还处在试验阶段。
第二类是机械式分词法(即基于词典)。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配, 如果词典中找到某个字符串, 则匹配成功, 可以切分, 否则不予切分。基于词典的机械分词法, 实现简单, 实用性强, 但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计, 用一个含有70 000 个词的词典去切分含有15 000 个词的语料库, 仍然有30% 以上的词条没有被分出来, 也就是说有4500 个词没有在词典中登录。
**第三类是基于统计的方法。**基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合, 相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。
最大匹配是指以词典为依据,取词典中最长单词长度作为第一个次取字数量的长度,在词典中进行扫描,这是基于词典分词的方法
1.正向最大匹配法 (由左到右的方向)
2.逆向最大匹配法 (由右到左的方向)
3.最少切分法:使每一句中切出的词数最小,这也是基于词典分词的方法
条件随机场(CRF)是一个基于统计的序列标记和分割的方法,属于基于统计的分词方法范畴。它定义了整个标签序列的联合概率,各状态是非独立的,彼此之间可以交互,因此可以更好地模拟现实世界的数据.
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,基于统计学,可以作为一种分词方法
33、通过算法生成的随机数是“伪随机”的,也就是说,在设定好第一个数之后,后面的数字的序列是确定的,并且经过一个非常大的循环会回到第一个数的状态,然后周而复始。显然,摇号、抽奖的程序是不能通过伪随机数来实现的。现实中常常基于某种热噪声来实现真正的随机数。假定某热噪声是标准正态分布,那么能否将它转换成(0,1)区间上的均匀分布__( A )
A、忽略测量和计算误差,可以转换为(0,1)区间上的均匀分布
B、无法转换为(0,1)区间上的均匀分布
C、信息不足,无法判断
D、借助伪随机数生成算法可以转换为(0,1)区间上的均匀分布
E、仅仅靠伪随机数生成算法,就可以生成(0,1)区间上的均匀分布
F、以上说法都不对
任何分布都能化为[0,1]均匀分布
https://blog.csdn.net/weixin_37895339/article/details/80380346
34、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测 ( D )
A、AR模型
B、MA模型
C、ARMA模型
D、GARCH模型
《时间序列分析》
AR模型:自回归模型,是一种线性模型
MA模型:移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型
ARMA模型:自回归滑动平均模型,拟合较高阶模型
GARCH模型:广义回归模型,对误差的方差建模,适用于波动性的分析和预测
35、这是第25道选择题,也是最后一道选择题。请估算一下,包括本题在内,这25道选择题题干及选项总共大约有多少个字符?( C )
A、500
B、1000
C、2000
D、4000
每一题平均80个字符(一个汉字算一个字符),25*80 = 2000
36、一个合法的表达式由()包围,()可以嵌套和连接,如(())()也是合法 表达式;现在有 6 对(),它们可以组成的合法表达式的个数为____ ( D )
A、15
B、30
C、64
D、132
E、256
F、360
https://www.zhihu.com/question/25072237/answer/30111179
卡特兰数列,C(12,6)-C(12,5)=132
我们可以把左括号看做1,右括号看做0,这些括号的组合就是01的排列
这里需要满足从第一个数开始的任意连续子序列中,0的个数不多于1的个数,也就是右括号的个数不多于左括号的个数。
假设我们不考虑这个限制条件,那么全部的01排列共有C(2n,n)种,也就是一半0一半1的情况
现在我们想办法把其中不符合要求的数量去掉
在任何不符合条件的序列中,找出使得0的个数超过1的个数的第一个0的位置,然后在导致并包括这个0的部分序列中,以1代替所有的0并以0代表所有的1。结果总的序列变成一个有(n+1)个1和(n-1)个0的序列。而且这个过程是可逆的,也就是说任何一个有(n+1)个1和(n-1)个0构成的序列都能反推出一个不符合条件的序列,所以不符合条件的序列个数为C(2n,n-1)
所以合法的排列数有C(2n,n)-C(2n,n-1)= C(12,6)-C(12,5)=132
37、某公司有这么一个规定:只要有一个员工过生日,当天所有员工全部放假一天。但在其余时候,所有员工都没有假期,必须正常上班。假设一年有365天,每个员工的生日都概率均等地分布在这365天里。那么,这个公司需要雇用多少员工,才能让公司一年内所有员工的总工作时间期望值最大?( D )
A、1
B、122
C、183
D、365
员工上班的概率就是员工中没有一个人过生日的概率
一个人,对于任意一天,过生日的概率是 1 / 365, 不过生日的概率是 364 / 365
n个人,对于任意一天,没任何人过生日的概率是(364 / 365)n
n个人,对于任意一天,有人过生日的概率是 1 - (364 / 365)n
那么365天里有人过生日的期望天数是 365 [1 - (364 / 365)n] 天,
则n个人,365天,每个人工作的期望天数是365 - 365 [1 - (364 / 365)n ] = 365(364 / 365)n
从而所有人的期望工作天数的和为:n * 365(364 / 365)n,求导数,导数不小于0,递增。
二、多选
1、某电商推出一款新的产品,希望这个产品能大卖,让你给这个主题取个名字,如果你是数据分析师,以下哪些指标可以用来判断。( A B C)
A、成交总量: 代表产品销售的收入
B、独立用户数: 代表购买产品的用户,说明产品的覆盖面
C、评价数(好评数): 反馈用户对产品口碑
D、购买时间:代表产品的销售与时间的相关性
本题目的关键点在于【产品大卖】,所以需要找出相关的指标。
商品大卖无非包含:潜在市场、意向用户、销售收入、利润等。
简单说,衡量商品是不是大卖的指标都是【分好坏】的指标。
像购买时间,并没有好坏之分,只是周期变动的一般趋势,衡量不出是不是大卖。
2、关于相关系数,下列描述中正确的有:(A C E )
A、相关系数为0.8时,说明两个变量之间呈正相关关系
B、相关系数等于1相较于相关系数等于-1,前者的相关性更强
C、相关性等于1相较于相关系数等于0,前者的相关性更强
D、Pearson相关系数衡量了两个定序变量之间的相关程度
E、Spearman相关系数可以衡量两个定序变量之间的相关程度
F、相关系数为0.2相较于-0.8,前者的相关性更强
Pearson(皮尔孙相关系数)相关评估两个连续变量之间的线性关系。当一个变量中的变化与另一个变量中的成比例变化相关时,这两个变量具有线性关系。
Spearman(斯皮尔曼)相关评估两个连续或顺序变量间单调关系。在单调关系中,变量倾向于同时变化,但不一定以恒定的速率变化。Spearman相关系数基于每个变量的秩值(而非原始数据)。
3、下列有关k-mean算法说法正确的是 ( AD )
A、不能自动识别类的个数,随机挑选初始点为中心点计算
B、数据数量不多时,输入的数据的顺序不同会导致结果不同
C、不能自动识别类的个数,不是随机挑选初始点为中心点计算
D、初始聚类中心的选择对聚类结果的影响很大
Kmeans优化目标函数的过程中,两步均是遍历所有的点,累加损失。 因此与数据的输入顺序无关。
4、下列哪些方法可以用来对高维数据进行降维: (A B C D E F )
A、LASSO
B、主成分分析法
C、聚类分析
D、小波分析法
E、线性判别法
F、拉普拉斯特征映射
lasso(回归模型)通过参数缩减达到降维的目的
小波分析的实质就是将原始信号表示为一组小波基的线性组合。我们可以通过忽略其中不重要的部分来达到降维的目的。
线性鉴别法即LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维(LDA是给定类别标签)
拉普拉斯特征映射(Laplacian Eigenmaps)是一种不太常见的降维算法,它看问题的角度和常见的降维算法不太相同,是从局部的角度去构建数据之间的关系。,拉普拉斯特征映射是一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构。
局部线性嵌入(Locally Linear Embedding,以下简称LLE)也是非常重要的降维方法。和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域。
5、excel工作簿a中有两列id、age,工作簿b中有一列id。需要找到工作薄b中id对应的age,可用的函数包括
( AB)
A、index+match
B、vlookup
C、hlookup
D、find
E、if
F、like
在Excel中match函数可以返回指定内容所在的位置,而index又可以根据指定位置查询到位置所对应的数据,各取其优点,我们可以返回指定位置相关联的数据。
如果查找范围的数据是纵向的,即,A列是姓名,B列是成绩,你要找姓名对应的成绩就用VLOOKUP V代表垂直
如果查找范围的数据是横向的,即,第一行是姓名,第二行是成绩,你要找姓名对应的成绩就用HLOOKUP H代表水平
6、某服务请求经负载均衡设备分配到集群A、B、C、D进行处理响应的概率分别是10%、20%、30%和40%。已知测试集群所得的稳定性指标分别是90%、95%、99%和99.9%。现在该服务器请求处理失败,且已排除稳定性以外的问题,那么最有可能在处理该服务请求的集群是________( A B )
A、A
B、B
C、C
D、D
令L代表服务器请求处理失败,A,B,C,D分别代表对应的集群处理响应。
则有P(A)=10%,P(B)=20%,P©=30%,P(D)=40%
P(L|A)=10%,P(L|B)=5%,P(L|C)=1%,P(L|D)=0.1%
题目要求P(X|L),X可取A,B,C,D,求其中的最大值。
根据贝叶斯概率公式
P(A|L)P(L)=P(L|A)P(A)=0.01
P(B|L)P(L)=P(L|B)P(B)=0.01
P(C|L)P(L)=P(L|C)P©=0.003
P(D|L)P(L)=P(L|D)P(D)=0.0004
其中,P(L)虽然未知,但不用计算,即可比较大小,得P(A|L)=P(B|L)>P(C|L)>P(D|L)
所以选A,B
7、关于线性回归的描述,以下正确的有: ( B C E )
A、基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B、基本假设包括随机干扰项是均值为0的同方差正态分布
C、在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D、在违背基本假设时,模型不再可以估计
E、可以用DW检验残差是否存在序列相关性
F、多重共线性会使得参数估计值方差减小
一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、**随机误差项服从正态分布
违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。
**
杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响
(1)完全共线性下参数估计量不存在
(2)近似共线性下OLS估计量非有效
多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
(3)参数估计量经济含义不合理
(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
8、现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij,比例为
Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的? ( B C F )
A、∑(N/K-Cij) (N/K-Cij) 越小越纯
B、-∑Cij * LOG(Rij) 越小越纯
C、∑(1-Rij * Rij) 越小越纯
D、∑(1-Rij) * (1-Rij) 越小越纯
E、∑(1-Rij)2 越小越纯
F、-∑Rij * LOG(Rij) 越小越纯
BF等价于熵判据,C是gini判据
信息熵,基尼系数越小,则纯度越高