备案控制台

开发者社区大数据文章正文

《Spark大数据分析：核心概念、技术及实践》导读

2017-05-19 1991

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Contents 目　　录

译者序

前言

致谢

第1章　大数据技术一览

1.1　Hadoop

1.1.1　HDFS

1.1.2　MapReduce

1.1.3　Hive

1.2　数据序列化

1.2.1　Avro

1.2.2　Thrift

1.2.3　Protocol Buffers

1.2.4　SequenceFile

1.3　列存储

1.3.1　RCFile

1.3.2　ORC

1.3.3　Parquet

1.4　消息系统

1.4.1　Kafka

1.4.2　ZeroMQ

1.5　NoSQL

1.5.1　Cassandra

1.5.2　HBase

1.6　分布式SQL查询引擎

1.6.1　Impala

1.6.2　Presto

1.6.3　Apache Drill

1.7　总结15

第2章　 Scala编程

2.1　函数式编程

2.1.1　函数

2.1.2　不可变数据结构

2.1.3　一切皆表达式

2.2　Scala基础

2.2.1　起步

2.2.2　基础类型

2.2.3　变量

2.2.4　函数

2.2.5　类

2.2.6　单例

2.2.7　样本类

2.2.8　模式匹配

2.2.9　操作符

2.2.10　特质

2.2.11　元组

2.2.12　Option类型

2.2.13　集合

2.3　一个单独的Scala应用程序

2.4　总结

第3章　 Spark Core

3.1　概述

3.1.1　主要特点

3.1.2　理想的应用程序

3.2　总体架构

3.2.1　worker

3.2.2　集群管理员

3.2.3　驱动程序

3.2.4　执行者

3.2.5　任务

3.3　应用运行

3.3.1　术语

3.3.2　应用运行过程

3.4　数据源

3.5　API

3.5.1　SparkContext

3.5.2　RDD

3.5.3　创建RDD

3.5.4　RDD操作

3.5.5　保存RDD

3.6　惰性操作

3.7　缓存

3.7.1　RDD的缓存方法

3.7.2　RDD缓存是可容错的

3.7.3　缓存内存管理

3.8　Spark作业

3.9　共享变量

3.9.1　广播变量

3.9.2　累加器

3.10　总结

文章标签：

分布式计算

Spark

缓存

Scala

消息中间件

SQL

NoSQL

Kafka

Apache

HIVE

关键词：

apache spark技术

apache spark实践

apache spark大数据分析

apache spark核心概念

apache spark大数据概念技术导读

华章计算机

+关注

目录

打赏

0

0

0

0

1408

相关文章

张飞的猪

|

8月前

|

机器学习/深度学习分布式计算算法

Spark快速大数据分析PDF下载读书分享推荐

《Spark快速大数据分析》适合初学者，聚焦Spark实用技巧，同时深入核心概念。作者团队来自Databricks，书中详述Spark 3.0新特性，结合机器学习展示大数据分析。Spark是大数据分析的首选工具，本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center

张飞的猪

254 1 1

Spark快速大数据分析PDF下载读书分享推荐

Echo_Wish

|

13天前

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

128 79 80

土木林森

|

4月前

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

267 2 2

土木林森

|

4月前

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

235 1 1

扬流

|

8月前

|

分布式计算 Java Serverless

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

本文以 ECS 连接 EMR Serverless Spark 为例，介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。

扬流

497 7 7

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

喜欢猪猪

|

6月前

|

分布式计算 Java Apache

Apache Spark Streaming技术深度解析

【9月更文挑战第4天】Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次（micro-batch），然后利用Spark的批处理引擎进行处理，从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量，又能够处理实时数据流。

喜欢猪猪

110 0 0

张飞的猪

|

8月前

|

分布式计算大数据 Spark

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

《Spark大数据处理：技术、应用与性能优化》深入浅出介绍Spark核心，涵盖部署、实战与性能调优，适合初学者。作者基于微软和IBM经验，解析Spark工作机制，探讨BDAS生态，提供实践案例，助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)

张飞的猪

207 1 1

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

扬流

|

7月前

|

分布式计算 Serverless 数据处理

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务，以实现任务调度和执行的自动化，帮助您更有效地管理数据处理任务。

扬流

293 0 0

周周的奇妙编程

|

8月前

|

分布式计算 Hadoop Serverless

数据处理的艺术：EMR Serverless Spark实践及应用体验

阿里云EMR Serverless Spark是基于Spark的全托管大数据处理平台，融合云原生弹性与自动化，提供任务全生命周期管理，让数据工程师专注数据分析。它内置高性能Fusion Engine，性能比开源Spark提升200%，并有成本优化的Celeborn服务。支持计算存储分离、OSS-HDFS兼容、DLF元数据管理，实现一站式的开发体验和Serverless资源管理。适用于数据报表、科学项目等场景，简化开发与运维流程。用户可通过阿里云控制台快速配置和体验EMR Serverless Spark服务。

周周的奇妙编程

14888 2 3

郑小健

|

9月前

|

分布式计算运维 Serverless

通过Serverless Spark提交PySpark流任务的实践体验

EMR Serverless Spark服务是阿里云推出的一种全托管、一站式的数据计算平台，旨在简化大数据计算的工作流程，让用户更加专注于数据分析和价值提炼，而非基础设施的管理和运维。下面就跟我一起通过Serverless Spark提交PySpark流任务吧。

郑小健

407 1 1

热门文章

最新文章

基于云服务器的数仓搭建-hive/spark安装

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

如何在IDE中通过Spark操作Hive

打破资源边界、告别资源浪费：ACK One 多集群Spark和AI作业调度

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

Dataphin功能Tips系列（47）-支持通过Spark本地客户端提交Spark Batch任务

Spark Operator浅析

Spark作业调度中stage的划分

Spark Doris Connector设计方案

在hue上部署spark作业

Python与Apache Spark：实时AI的大数据引擎——Spark Streaming实战

MaxCompute操作报错合集之 Spark Local模式启动报错，是什么原因

MaxCompute操作报错合集之使用Spark查询时函数找不到的原因是什么

E-MapReduce Serverless Spark 版测评

迟来的EMR Serverless Spark评测报告

E-MapReduce Serverless Spark 评测

E-MapReduce Serverless Spark开发者评测

DataWorks产品使用合集之怎么编写和执行Spark SQL

带你读《阿里云产品五月刊》——五、阿里云 EMR Serverless Spark 版开启免费公测

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

基于百炼构建可以划重点、规划学习计划的学习助手

语言入门-1：环境构建

高性能特性体验：ePQ 的详解与实战

高效敏捷开发体验

星轨SOP编排中心实战课程

通过部署流行Web框架掌握Serverless技术

下一篇

基于ECS搭建云上博客