大数据—数据挖掘

简介: 大数据—数据挖掘

一、单选


1、有如下数据集,则频繁3-项集为:( A )


事务ID 购买的商品
T100 {M、O、N、K、E、Y}
T200 {D、O、N、K、E、Y}
T300 {M、A、K、E}
T400 {M、U、C、K、Y}
T500 {C、O、O、K、I、E}


A、{O,K,E}

B、{M,U,E}

C、{N,K,O}

D、{Y,U,E}


A:1


M:3


0:5


N:2


K:5


E:4


Y:3


U:1


C:2


I:1


---->O,K,E —>A


2、下面列出特征选择算法中,不属于启发式搜索的有==( A )==


A、分支限界搜索

B、序列前向选择搜索

C、增L去R搜索

D、序列浮动选择搜索


1、完全搜索:广度优先算法、分支限界算法 、定向搜索算法 、最优优先算法


2、启发式搜索:序列前向选择、 序列后向选择 、双向搜索(类似于向前法 向后法 向前向后法)、增L去R、序列浮动算法、决策树算法


3、随机算法:随机产生序列选择算法、 模拟退火算法、 遗传算法


3、有如下数据集,分别使用1-最近邻,3-最近邻,对数据点x=5.0分类,则:( A )



X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5
Y - - + + + - - + - -


A、1-最近邻:+ ;3-最近邻:-

B、1-最近邻:+ ;3-最近邻:+

C、1-最近邻:- ;3-最近邻:-

D、1-最近邻:- ;3-最近邻:+


1-最近邻时,x=5.0最近的一个样本是4.9是正类,而3-最近邻时,x=5.0最近的3个样本(4.9,5.2,5.3)中多数是负类,这样来判断


4、考虑下表中二元分类问题的训练样本,根据信息增益,哪个是最佳划分(在a1,a2,a3中) ( A


实例 a1 a2 a3 类别
1 T T 1.0 +
2 T T 6.0 +
3 T F 5.0 -
4 F F 4.0 +
5 F T 7.0 -
6 F T 3.0 -
7 F F 8.0 -
8 T F 7.0 +
9 F T 5.0 -



A、a1

B、a2

C、a3


根据最后一列的类别反推,a1中 T和F和类别的 + 和 - 更多对应,所以 a1优于 a2。


5、以下有关神经网络的说法错误的是==( A )==


A、MP模型在隐藏层和输出层都对神经元进行激活函数处理

B、使用多层功能神经元可以解决非线性可分问题

C、神经网络“学”到的东西,蕴含在连接权值和阈值中

D、BP算法基于梯度下降策略


MP多层感知机,隐藏层只是加权求和没有激活函数,通常在输出层加激活函数


二、多选


1、 以下各项均是针对数据仓库的不同说法,你认为正确的有 ( BD )


A、数据仓库就是数据库

B、数据仓库是一切商业智能系统的基础

C、数据仓库是面向业务的,支持联机事务处理(OLTP)

D、数据仓库支持决策而非事务处理


数据仓库是支持分析决策,依赖hdfs,支持OLAP


数据仓库不是面向业务的,数据库是面向业务的


2、关于BP神经网络说法正确的是==( ABCD )==


A、是一种非线性模型

B、sigmoid是其常用的一种激活函数

C、可用于分类或回归

D、有良好的自组织自学习能力机器学习方法


A:非线性是由于激活函数产生的,


B:sigmoid是常见的激活函数,值域在【0,1】


C:神经网络能够用于分类和回归.


D:能够利用反向传播减少误差进行自主学习


3、关于ELM神经网络的描述,下列选项中正确的是==( BD )==


A、通过梯度下降法,利用反向传播的方式来进行学习

B、是一种泛化的单隐层前馈神经网络

C、容易形成局部极小值而得不到全局最优值

D、输入层和隐含层之间的权重和隐含层节点的阈值是通过随机初始化得到的


A、C 是传统的神经网络做法,和存在的问题。(BP算法)


ELM(极限学习机 Extreme Learning Maching):该算法随机产生输入层与隐层间的连接权重及隐层神经元的阈值,且在训练过程中无需调整,只需要设置隐层神经元的个数,便可以获得唯一的全局最优解。


4、关于K均值和DBSCAN的比较,以下说法正确的是 ( ABC )


A、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念

B、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。

C、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇

D、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象


DBSCAN丢弃被它识别为噪声的对象,而K均值一般聚类所有对象


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
4月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
120 0
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【大数据】数据挖掘工具:发现数据中的宝藏
【大数据】数据挖掘工具:发现数据中的宝藏
69 0
|
机器学习/深度学习 人工智能 大数据
人工智能、大数据、数据挖掘、机器学习-数据集来源(下)
人工智能、大数据、数据挖掘、机器学习-数据集来源(下)
184 0
|
机器学习/深度学习 存储 人工智能
人工智能、大数据、数据挖掘、机器学习-数据集来源(中)
人工智能、大数据、数据挖掘、机器学习-数据集来源(中)
142 0
|
机器学习/深度学习 数据采集 存储
人工智能、大数据、数据挖掘、机器学习-数据集来源(上)
人工智能、大数据、数据挖掘、机器学习-数据集来源(上)
162 0
|
9天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
10天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
22 0

热门文章

最新文章