文档备案控制台

开发者社区华章出版社文章正文

《Spark与Hadoop大数据分析》——1.5　小结

2017-09-01 1543

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第1章，第1.5节，作者 [美]文卡特·安卡姆（Venkat Ankam），译吴今朝，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5　小结

使用Hadoop和Spark的大数据分析大致分为两大类：数据分析和数据科学。数据分析侧重于过去和现在的统计，而数据科学侧重于未来的统计。数据科学项目本质上是迭代的，而数据分析项目则不是迭代的。

Apache Hadoop为你提供了分布式存储和资源管理，Spark为你提供了大数据分析的内存级性能。在大数据分析中，需要根据用例的类型及其可行性来使用各种工具和技术。

下一章将帮助你开始学习Hadoop和Spark。

文章标签：

分布式计算

Apache

Spark

Hadoop

数据挖掘

关键词：

hadoop spark

apache spark Hadoop

apache spark大数据分析

hadoop大数据分析

apache spark Hadoop大数据分析

华章计算机

目录

相关文章

张飞的猪

|

机器学习/深度学习分布式计算算法

Spark快速大数据分析PDF下载读书分享推荐

《Spark快速大数据分析》适合初学者，聚焦Spark实用技巧，同时深入核心概念。作者团队来自Databricks，书中详述Spark 3.0新特性，结合机器学习展示大数据分析。Spark是大数据分析的首选工具，本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center

张飞的猪

731 1 1

Spark快速大数据分析PDF下载读书分享推荐

武子康

|

分布式计算 Kubernetes Hadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

1226 6 6

Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

795 79 80

武子康

|

分布式计算资源调度 Hadoop

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

武子康

567 2 2

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

780 2 2

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

713 1 1

土木林森

|

分布式计算 Hadoop 大数据

Spark 与 Hadoop 的大数据之战：一场惊心动魄的技术较量，决定数据处理的霸权归属！

【8月更文挑战第7天】无论是 Spark 的高效内存计算，还是 Hadoop 的大规模数据存储和处理能力，它们都为大数据的发展做出了重要贡献。

土木林森

369 2 2

1941623231718325

|

分布式计算 Hadoop 大数据

Hadoop与Spark在大数据处理中的对比

【7月更文挑战第30天】Hadoop和Spark在大数据处理中各有优势，选择哪个框架取决于具体的应用场景和需求。Hadoop适合处理大规模数据的离线分析，而Spark则更适合需要快速响应和迭代计算的应用场景。在实际应用中，可以根据数据处理的需求、系统的可扩展性、成本效益等因素综合考虑，选择适合的框架进行大数据处理。

1941623231718325

1028 2 2

泥腿子架构师

|

分布式计算资源调度 Hadoop

Java大数据处理：Spark与Hadoop整合

Java大数据处理：Spark与Hadoop整合

泥腿子架构师

1011 1 1

郑小健

|

存储分布式计算资源调度

Hadoop生态系统概览：从HDFS到Spark

【8月更文第28天】Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。它由多个组件构成，旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件，包括HDFS、MapReduce、YARN，并探讨它们如何与现代大数据处理工具如Spark集成。

郑小健

1581 0 0

华章出版社

热门文章

最新文章

大数据hadoop常见端口

Docker 上部署一主两从Hadoop集群 | [Centos8]（下）

HBase Shell-org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 已解决

Docker 上部署一主两从Hadoop集群 | [Centos7]（上）

Hadoop入门之WordCount运行详解

Hadoop2.7实战v1.0之Linux参数调优

Hadoop在hadoop-env.sh中保存并退出编辑器

hadoop初学者MapReduce常见错误

工良出品：包教会，Hadoop、Hive 搭建部署简易教程

hadoop伪分布式2.4.1安装

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

搭建Hadoop环境

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！