备案控制台

开发者社区

开发者社区华章出版社文章正文

《Spark与Hadoop大数据分析》一一

2017-07-03 1258

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第1章，第1.3节,作者：文卡特·安卡姆（Venkat Ankam）更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3　工具和技术

让我们来看看在 Hadoop 和 Spark 中用于大数据分析的不同工具和技术。
虽然 Hadoop 平台可以用于存储和处理数据，但 Spark 只能通过将数据读入内存来进行处理。
下表展示了典型大数据分析项目中所使用的工具和技术。

文章标签：

分布式计算

存储

Spark

Hadoop

关键词：

hadoop spark

apache spark Hadoop

apache spark大数据分析

hadoop大数据分析

spark hadoop大数据分析

华章计算机

目录

相关文章

岁岁种桃花儿

|

4月前

|

SQL 分布式计算 Hadoop

干翻Hadoop系列文章【02】：Hadoop、Hive、Spark的区别和联系

干翻Hadoop系列文章【02】：Hadoop、Hive、Spark的区别和联系

岁岁种桃花儿

61 0 0

桃李春风一杯酒

|

13天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

32 1 1

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

71 0 0

热烈的马

|

4月前

|

消息中间件分布式计算大数据

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

热烈的马

72 0 0

热烈的马

|

4月前

|

SQL 分布式计算大数据

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

热烈的马

55 0 0

热烈的马

|

4月前

|

分布式计算大数据 Scala

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

热烈的马

92 1 1

桃李春风一杯酒

|

3月前

|

分布式计算 Hadoop 大数据

什么是 Hadoop 和 Spark？在 Python 中如何使用它们进行大数据处理？

【1月更文挑战第11天】

桃李春风一杯酒

85 0 0

晓之以理的喵~~

|

3月前

|

SQL 分布式计算 Hadoop

Spark与Hadoop的关系和区别

Spark与Hadoop的关系和区别

晓之以理的喵~~

174 0 0

极客李华

|

3月前

|

分布式计算 Hadoop 数据处理

Spark与Hadoop的区别是什么？请举例说明。

Spark与Hadoop的区别是什么？请举例说明。

极客李华

54 0 0

wux_labs

|

4月前

|

分布式计算资源调度搜索推荐

《PySpark大数据分析实战》-02.了解Hadoop

大家好！今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容：了解Hadoop。

wux_labs

48 0 0

《PySpark大数据分析实战》-02.了解Hadoop

华章出版社

热门文章

最新文章

利用Hive与Hadoop构建大数据仓库：从零到一

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

大数据处理架构Hadoop

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

【Hadoop】HDFS 读写流程

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

【Hadoop Yarn】Yarn 工作机制

Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

【Flink】Flink跟Spark Streaming的区别？

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

使用Flink实时发现最热Github项目

通过FastMR自动拉起大数据集群并运行TPCDS任务

搭建Hadoop环境

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）