备案控制台

开发者社区华章出版社文章正文

《Spark与Hadoop大数据分析》——2.2　Apache Spark概述

2017-09-01 1705

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章，第2.2节，作者 [美]文卡特·安卡姆（Venkat Ankam），译吴今朝，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2　Apache Spark概述

Hadoop和MR已有10年历史，已经被证明是高性能处理海量数据的最佳解决方案。然而，MR在迭代计算中性能不足，在这种情况下，多个MR作业之间的输出必须被写入 HDFS。在单个MR作业中，它的性能不足则是因为MR框架存在的一些缺点所致。

让我们来看看计算趋势的发展历史，以便了解计算的格局在过去20年中的变化。

这个趋势是当网络成本更低时（1990年代）对URI索引（Reference），当存储成本更低时（2000 年代）进行复制（Replicate），以及当内存成本更低时（2010 年代）进行再计算（Recompute），如图2-5 所示：

让我们来了解一下，为什么基于内存的计算很重要，以及它如何能产生显著的性能优势。

图2-6显示了从各种介质到CPU的数据传输速率。磁盘到CPU的传输速率为100 MB/s，SSD到CPU为600 MB/s，通过网络到CPU为1 MB到1 GB/s。然而，RAM到CPU的传输速度惊人地快，达到了10 GB/s。所以，理想的思路是把所有或部分数据缓存到内存里，以便实现更高的性能：

2.2.1　Spark 的发展历史

Spark 始于 2009 年，起初是作为加州大学伯克利分校 RAD 实验室的一个研究项目，该实验室就是 AMPLab 的前身。该实验室的研究人员以前一直在使用 Hadoop MapReduce，并观察到 MR 对于迭代和交互式计算工作是低效率的。因此，从一开始，Spark 被设计为快速进行交互式查询和迭代的算法，采用了支持内存存储和高效故障恢复等一些思路。

在2011年，AMPLab开始在Spark上开发更高级的组件，如Shark和Spark Streaming。这些组件有时被称为Berkeley数据分析框架（Berkeley Data Analytics Stack，BDAS）。

Spark于2010年3月首次开源，并于2013年6月被转移到Apache软件基金会。

到2014年2月，它成为了Apache软件基金会的一个顶级项目。Spark已经成为大数据领域最大的开源社区之一。现在，有超过50个组织里的超过250位贡献者正在为Spark开发做出贡献。它的用户群增长迅猛，包括了从小型公司到财富500强公司。图2-7显示了 Apache Spark的发展历史：

2.2.2　Apache Spark 是什么

让我们来了解一下Apache Spark 是什么，以及是什么使之成为大数据分析的利器：

2.2.3　Apache Spark 不是什么

Hadoop 提供了用于存储的 HDFS 和用于计算的 MR。但是，Spark 不提供任何特定的存储介质。Spark 主要是一个计算引擎，但你可以把数据存储在内存里或 Tachyon 上进行处理。

Spark 具有从存储在 HDFS 或 Hadoop API 支持的其他存储系统（包括你的本地文件系统、Amazon S3、Cassandra、Hive、HBase、Elasticsearch 等）中的任何文件创建分布式数据集的能力。

重要的是要注意 Spark 不是 Hadoop，也不需要 Hadoop 来运行它。它只是为那些实现了 Hadoop API 的存储系统提供支持而已。Spark 支持文本文件、序列文件、Avro、Parquet 和其他任何 Hadoop 输入格式。

2.2.4　MapReduce 的问题

在性能和把业务问题转换为 MR 问题方面，MR 开发人员都面临着一些挑战。让我们来了解这些与 MR 相关的问题。以及如何在 Apache Spark 中解决这些问题：

MR速度缓慢是因为 MR 作业中的每个作业都把数据存储在磁盘上。对同一数据集的多个查询会分别读取数据，产生大量的磁盘读写，如图2-8 所示：

Spark 将 MR 的概念提升到更高水平，将中间数据存储在内存中，并根据需要多次重复使用。这样就在内存速度下提供了高性能，如图2-8 所示。

总而言之，MR 和 Spark 之间的区别如下：

2.2.5　Spark 的架构

Spark 的架构组件有 Spark Core、Spark SQL、Dataset和DataFrame、Spark Streaming、Structured Streaming、MLlib、GraphX 以及 SparkR，如图2-9所示：

下面是 Spark 组件与 Hadoop Ecosystem 组件的比较：

为了从更高的层次理解 Spark 框架，让我们来看看 Spark 的这些核心组件以及它们的集成：

Spark 生态系统是一个统一的技术架构，它为你提供了在一个程序中结合 SQL、流和机器学习的强大功能。这种统一性的优点如下：

这种统一性的一个示例如图2-10 所示：

文章标签：

分布式计算

Spark

Apache

存储

大数据

关键词：

云原生大数据计算服务 MaxCompute spark

数据分析概述

apache spark Hadoop

hadoop spark

Apache spark

华章计算机

目录

相关文章

程序三两行

|

6天前

|

存储 SQL 分布式计算

Hadoop概述

程序三两行

40 1 1

疯狂的猿

|

6天前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

168 0 0

桃李春风一杯酒

|

6天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

365 1 1

爱吃糖的范同学

|

6天前

|

存储分布式计算 Hadoop

【Hadoop】Hadoop 概述

【4月更文挑战第8天】【Hadoop】Hadoop 概述

爱吃糖的范同学

282 12 12

ZShiJ

|

6天前

|

数据采集传感器数据可视化

数据分析概述

数据分析概述

ZShiJ

5 0 0

三分钟热度的鱼

|

6天前

|

分布式计算 DataWorks 大数据

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

MaxCompute是阿里云提供的大规模离线数据处理服务，用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时，可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

三分钟热度的鱼

28 1 1

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

程序员三木

|

6天前

|

分布式计算大数据数据处理

[AIGC大数据基础] Spark 入门

[AIGC大数据基础] Spark 入门

程序员三木

143 0 0

长梦

|

6天前

|

分布式计算资源调度 Hadoop

Apache Hadoop入门指南：搭建分布式大数据处理平台

【4月更文挑战第6天】本文介绍了Apache Hadoop在大数据处理中的关键作用，并引导初学者了解Hadoop的基本概念、核心组件（HDFS、YARN、MapReduce）及如何搭建分布式环境。通过配置Hadoop、格式化HDFS、启动服务和验证环境，学习者可掌握基本操作。此外，文章还提及了开发MapReduce程序、学习Hadoop生态系统和性能调优的重要性，旨在为读者提供Hadoop入门指导，助其踏入大数据处理的旅程。

长梦

244 0 0

爱吃糖的范同学

|

6天前

|

分布式计算资源调度监控

【Hadoop Yarn】Hadoop Yarn 概述

【4月更文挑战第7天】【Hadoop Yarn】Hadoop Yarn 概述

爱吃糖的范同学

19 0 0

穿过生命散发芬芳

|

6天前

|

资源调度分布式计算 Hadoop

Apache Hadoop YARN基本架构

【2月更文挑战第24天】

穿过生命散发芬芳

31 0 0

华章出版社

热门文章

最新文章

一文解析 ODPS SQL 任务优化方法原理

给技术新人的ODPS优化建议

《区块链公链数据分析简易速速上手小册》第1章：区块链基础（2024 最新版）

Pandas实战案例：电商数据分析的实践与挑战

《区块链公链数据分析简易速速上手小册》第5章：高级数据分析技术（2024 最新版）（上）

《区块链公链数据分析简易速速上手小册》第4章：交易数据分析（2024 最新版）（上）

实战案例：Pandas在金融数据分析中的应用

SciPy在数据分析中的应用：从数据清洗到可视化

NumPy在数据分析中的核心应用

R语言中的地理空间数据分析

Apache Hadoop YARN基本架构

使用Hadoop和Nutch构建音频爬虫：实现数据收集与分析

Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)

百度搜索：蓝易云【Ubuntu搭建全分布式Hadoop】

hadoop升级流程

使用Sqoop将数据从Hadoop导出到关系型数据库

使用Sqoop将数据导入Hadoop的详细教程

Hadoop和Hive中的数据倾斜问题及其解决方案

Hadoop生态各个组件的关系

相关课程

更多

Apache Flink 入门到实战 - Flink开源社区出品

Python 数据分析库 Pandas 快速入门

深入理解数据分析

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务

倚天大数据电商数据分析快速实践

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

AnalyticDB MySQL游戏行业数据分析实践

Github实时数据分析与可视化

使用内置公开数据集快速体验MaxCompute

推荐镜像

更多

apache

packman

CPAN

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考