一、单选
1、有如下数据集,则频繁3-项集为:( A )
事务ID | 购买的商品 |
T100 | {M、O、N、K、E、Y} |
T200 | {D、O、N、K、E、Y} |
T300 | {M、A、K、E} |
T400 | {M、U、C、K、Y} |
T500 | {C、O、O、K、I、E} |
A、{O,K,E}
B、{M,U,E}
C、{N,K,O}
D、{Y,U,E}
A:1
M:3
0:5
N:2
K:5
E:4
Y:3
U:1
C:2
I:1
---->O,K,E —>A
2、下面列出特征选择算法中,不属于启发式搜索的有==( A )==
A、分支限界搜索
B、序列前向选择搜索
C、增L去R搜索
D、序列浮动选择搜索
1、完全搜索:广度优先算法、分支限界算法 、定向搜索算法 、最优优先算法
2、启发式搜索:序列前向选择、 序列后向选择 、双向搜索(类似于向前法 向后法 向前向后法)、增L去R、序列浮动算法、决策树算法
3、随机算法:随机产生序列选择算法、 模拟退火算法、 遗传算法
3、有如下数据集,分别使用1-最近邻,3-最近邻,对数据点x=5.0分类,则:( A )
X | 0.5 | 3.0 | 4.5 | 4.6 | 4.9 | 5.2 | 5.3 | 5.5 | 7.0 | 9.5 |
Y | - | - | + | + | + | - | - | + | - | - |
A、1-最近邻:+ ;3-最近邻:-
B、1-最近邻:+ ;3-最近邻:+
C、1-最近邻:- ;3-最近邻:-
D、1-最近邻:- ;3-最近邻:+
1-最近邻时,x=5.0最近的一个样本是4.9是正类,而3-最近邻时,x=5.0最近的3个样本(4.9,5.2,5.3)中多数是负类,这样来判断
4、考虑下表中二元分类问题的训练样本,根据信息增益,哪个是最佳划分(在a1,a2,a3中) ( A
实例 | a1 | a2 | a3 | 类别 |
1 | T | T | 1.0 | + |
2 | T | T | 6.0 | + |
3 | T | F | 5.0 | - |
4 | F | F | 4.0 | + |
5 | F | T | 7.0 | - |
6 | F | T | 3.0 | - |
7 | F | F | 8.0 | - |
8 | T | F | 7.0 | + |
9 | F | T | 5.0 | - |
A、a1
B、a2
C、a3
根据最后一列的类别反推,a1中 T和F和类别的 + 和 - 更多对应,所以 a1优于 a2。
5、以下有关神经网络的说法错误的是==( A )==
A、MP模型在隐藏层和输出层都对神经元进行激活函数处理
B、使用多层功能神经元可以解决非线性可分问题
C、神经网络“学”到的东西,蕴含在连接权值和阈值中
D、BP算法基于梯度下降策略
MP多层感知机,隐藏层只是加权求和没有激活函数,通常在输出层加激活函数
二、多选
1、 以下各项均是针对数据仓库的不同说法,你认为正确的有 ( BD )
A、数据仓库就是数据库
B、数据仓库是一切商业智能系统的基础
C、数据仓库是面向业务的,支持联机事务处理(OLTP)
D、数据仓库支持决策而非事务处理
数据仓库是支持分析决策,依赖hdfs,支持OLAP
数据仓库不是面向业务的,数据库是面向业务的
2、关于BP神经网络说法正确的是==( ABCD )==
A、是一种非线性模型
B、sigmoid是其常用的一种激活函数
C、可用于分类或回归
D、有良好的自组织自学习能力机器学习方法
A:非线性是由于激活函数产生的,
B:sigmoid是常见的激活函数,值域在【0,1】
C:神经网络能够用于分类和回归.
D:能够利用反向传播减少误差进行自主学习
3、关于ELM神经网络的描述,下列选项中正确的是==( BD )==
A、通过梯度下降法,利用反向传播的方式来进行学习
B、是一种泛化的单隐层前馈神经网络
C、容易形成局部极小值而得不到全局最优值
D、输入层和隐含层之间的权重和隐含层节点的阈值是通过随机初始化得到的
A、C 是传统的神经网络做法,和存在的问题。(BP算法)
ELM(极限学习机 Extreme Learning Maching):该算法随机产生输入层与隐层间的连接权重及隐层神经元的阈值,且在训练过程中无需调整,只需要设置隐层神经元的个数,便可以获得唯一的全局最优解。
4、关于K均值和DBSCAN的比较,以下说法正确的是 ( ABC )
A、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念
B、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
C、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇
D、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象
DBSCAN丢弃被它识别为噪声的对象,而K均值一般聚类所有对象