大数据—数据挖掘

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据—数据挖掘

一、单选


1、有如下数据集,则频繁3-项集为:( A )


事务ID 购买的商品
T100 {M、O、N、K、E、Y}
T200 {D、O、N、K、E、Y}
T300 {M、A、K、E}
T400 {M、U、C、K、Y}
T500 {C、O、O、K、I、E}


A、{O,K,E}

B、{M,U,E}

C、{N,K,O}

D、{Y,U,E}


A:1


M:3


0:5


N:2


K:5


E:4


Y:3


U:1


C:2


I:1


---->O,K,E —>A


2、下面列出特征选择算法中,不属于启发式搜索的有==( A )==


A、分支限界搜索

B、序列前向选择搜索

C、增L去R搜索

D、序列浮动选择搜索


1、完全搜索:广度优先算法、分支限界算法 、定向搜索算法 、最优优先算法


2、启发式搜索:序列前向选择、 序列后向选择 、双向搜索(类似于向前法 向后法 向前向后法)、增L去R、序列浮动算法、决策树算法


3、随机算法:随机产生序列选择算法、 模拟退火算法、 遗传算法


3、有如下数据集,分别使用1-最近邻,3-最近邻,对数据点x=5.0分类,则:( A )



X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5
Y - - + + + - - + - -


A、1-最近邻:+ ;3-最近邻:-

B、1-最近邻:+ ;3-最近邻:+

C、1-最近邻:- ;3-最近邻:-

D、1-最近邻:- ;3-最近邻:+


1-最近邻时,x=5.0最近的一个样本是4.9是正类,而3-最近邻时,x=5.0最近的3个样本(4.9,5.2,5.3)中多数是负类,这样来判断


4、考虑下表中二元分类问题的训练样本,根据信息增益,哪个是最佳划分(在a1,a2,a3中) ( A


实例 a1 a2 a3 类别
1 T T 1.0 +
2 T T 6.0 +
3 T F 5.0 -
4 F F 4.0 +
5 F T 7.0 -
6 F T 3.0 -
7 F F 8.0 -
8 T F 7.0 +
9 F T 5.0 -



A、a1

B、a2

C、a3


根据最后一列的类别反推,a1中 T和F和类别的 + 和 - 更多对应,所以 a1优于 a2。


5、以下有关神经网络的说法错误的是==( A )==


A、MP模型在隐藏层和输出层都对神经元进行激活函数处理

B、使用多层功能神经元可以解决非线性可分问题

C、神经网络“学”到的东西,蕴含在连接权值和阈值中

D、BP算法基于梯度下降策略


MP多层感知机,隐藏层只是加权求和没有激活函数,通常在输出层加激活函数


二、多选


1、 以下各项均是针对数据仓库的不同说法,你认为正确的有 ( BD )


A、数据仓库就是数据库

B、数据仓库是一切商业智能系统的基础

C、数据仓库是面向业务的,支持联机事务处理(OLTP)

D、数据仓库支持决策而非事务处理


数据仓库是支持分析决策,依赖hdfs,支持OLAP


数据仓库不是面向业务的,数据库是面向业务的


2、关于BP神经网络说法正确的是==( ABCD )==


A、是一种非线性模型

B、sigmoid是其常用的一种激活函数

C、可用于分类或回归

D、有良好的自组织自学习能力机器学习方法


A:非线性是由于激活函数产生的,


B:sigmoid是常见的激活函数,值域在【0,1】


C:神经网络能够用于分类和回归.


D:能够利用反向传播减少误差进行自主学习


3、关于ELM神经网络的描述,下列选项中正确的是==( BD )==


A、通过梯度下降法,利用反向传播的方式来进行学习

B、是一种泛化的单隐层前馈神经网络

C、容易形成局部极小值而得不到全局最优值

D、输入层和隐含层之间的权重和隐含层节点的阈值是通过随机初始化得到的


A、C 是传统的神经网络做法,和存在的问题。(BP算法)


ELM(极限学习机 Extreme Learning Maching):该算法随机产生输入层与隐层间的连接权重及隐层神经元的阈值,且在训练过程中无需调整,只需要设置隐层神经元的个数,便可以获得唯一的全局最优解。


4、关于K均值和DBSCAN的比较,以下说法正确的是 ( ABC )


A、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念

B、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。

C、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇

D、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象


DBSCAN丢弃被它识别为噪声的对象,而K均值一般聚类所有对象


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
8月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
576 0
|
5月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
115 10
|
5月前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
5月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
58 1
|
5月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
102 0
|
机器学习/深度学习 算法 数据挖掘
【大数据】数据挖掘工具:发现数据中的宝藏
【大数据】数据挖掘工具:发现数据中的宝藏
144 0

热门文章

最新文章