《Spark与Hadoop大数据分析》一一2.3 为何把 Hadoop 和 Spark 结合使用

简介:

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.3节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 为何把 Hadoop 和 Spark 结合使用

Apache Spark 与 Hadoop 结合使用时表现更好。为了理解这一点,让我们来看看 Hadoop 和 Spark 的特性。
2.3.1 Hadoop 的特性
image

2.3.2 Spark 的特性
image

当这两个框架结合起来的时候,我们就得到了具有内存级性能的企业级应用的威力,如图2-11 所示。
关于 Spark 的常见问题
以下是从业者对 Spark 提出的常见问题:
我的数据集无法完全放进内存。我该如何使用 Spark 呢?
如果数据无法完全放进内存,Spark 的运算符会让数据分散到磁盘里,从而使它能在任何大小的数据上运行。类似地,无法完全放进内存的缓存数据集要么分散到磁盘,要么在需要时重新计算,这是由 RDD 的存储级别确定的。默认情况下,Spark 会重新计算无法完全放进内存的分区。存储级别可以更改为 MEMORY_AND_DISK,把分区分散到磁盘。
image

图2-11 Hadoop 平台上的 Spark 应用
图2-12显示了完全缓存和分散到磁盘两种情况之间的性能差异:
image

图2-12 Spark 的性能:完全缓存和分散到磁盘的情况对比
Spark 中的故障恢复是如何起作用的?
Spark 内置的基于 RDD 谱系的容错会自动从故障中恢复。图2-13 显示了 k均值算法中第 6 次迭代中对故障的恢复:

image

图2-13 故障恢复的情况

相关文章
|
12天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
36 2
|
12天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
14天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
54 1
|
1月前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程
|
2月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
121 0
|
3月前
|
分布式计算 监控 大数据
Spark RDD分区和数据分布:优化大数据处理
Spark RDD分区和数据分布:优化大数据处理
|
3月前
|
SQL 分布式计算 Hadoop
Spark与Hadoop的关系和区别
Spark与Hadoop的关系和区别
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0