备案控制台

开发者社区华章出版社文章正文

《Spark核心技术与高级应用》——第3章Spark程序开发

2017-05-02 1282

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第3章Spark程序开发，作者于俊　向海　代其锋　马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看

第3章
Spark程序开发
致虚极，守静笃。万物并作，吾以观复。
——《道德经》第十六章
这世间，一切原本都是空虚而宁静的，万物也因而能够在其中生长。因此，要追寻万物的本质，必须恢复其最原始的虚静状态，只有致虚和守静做到极笃的境地，万物才能蓬勃生长，往复循环。
作为程序员，怎么提倡超越都不为过，但落地到具体问题，我们需要有比较实际的措施。从简单程序开始，以致虚和守静的心态，清空自己在大数据方向不劳而获的幻想，逐步成长为业内有影响力的角色。对于大部分程序员而言，本章内容略显基础，首先通过Spark交互Shell来介绍Spark API，编写简单的Spark程序，然后展示如何构建Spark开发环境，以及编写简单的Spark案例程序，并提交应用程序。

文章标签：

分布式计算

Spark

程序员

大数据

关键词：

apache spark应用

apache spark高级

apache spark程序开发

apache spark核心技术

apache spark核心技术高级应用

华章计算机

目录

相关文章

yuanzhengme

|

分布式计算数据处理 Apache

Spark和Flink的区别是什么？如何选择？都应用在哪些行业？

【10月更文挑战第10天】Spark和Flink的区别是什么？如何选择？都应用在哪些行业？

yuanzhengme

1556 1 1

阿里云大数据

|

8月前

|

SQL 分布式计算 Serverless

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求，采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升，支持业务快速发展、计算效率提升，增强SLA保障，稳定性提升，降低运维成本，并支撑全球化数据架构部署。

阿里云大数据

884 56 57

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

阿里云大数据

|

10月前

|

机器学习/深度学习分布式计算大数据

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

阿里云大数据

499 15 15

技术小达人

|

10月前

|

SQL 分布式计算 Serverless

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

技术小达人

262 0 0

张飞的猪

|

分布式计算大数据 Spark

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

《Spark大数据处理：技术、应用与性能优化》深入浅出介绍Spark核心，涵盖部署、实战与性能调优，适合初学者。作者基于微软和IBM经验，解析Spark工作机制，探讨BDAS生态，提供实践案例，助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)

张飞的猪

411 1 1

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

1941623231718325

|

分布式计算大数据数据处理

Apache Spark的应用与优势：解锁大数据处理的无限潜能

【8月更文挑战第23天】Apache Spark以其卓越的性能、易用性、通用性、弹性与可扩展性以及丰富的生态系统，在大数据处理领域展现出了强大的竞争力和广泛的应用前景。随着大数据技术的不断发展和普及，Spark必将成为企业实现数字化转型和业务创新的重要工具。未来，我们有理由相信，Spark将继续引领大数据处理技术的发展潮流，为企业创造更大的价值。

1941623231718325

591 3 3

土木林森

|

分布式计算资源调度测试技术

“Spark Streaming异常处理秘籍：揭秘如何驯服实时数据流的猛兽，守护你的应用稳如泰山，不容错过！”

【8月更文挑战第7天】Spark Streaming 是 Apache Spark 中的关键组件，用于实时数据流处理。部署时可能遭遇数据问题、资源限制或逻辑错误等异常。合理处理这些异常对于保持应用稳定性至关重要。基础在于理解其异常处理机制，通过 DSC 将数据流切分为 RDD。对于数据异常，可采用 try-catch 结构捕获并处理；资源层面异常需优化 Spark 配置，如调整内存分配；逻辑异常则需加强单元测试及集成测试。结合监控工具，可全面提升应用的健壮性和可靠性。

土木林森

258 3 3

周周的奇妙编程

|

分布式计算 Hadoop Serverless

数据处理的艺术：EMR Serverless Spark实践及应用体验

阿里云EMR Serverless Spark是基于Spark的全托管大数据处理平台，融合云原生弹性与自动化，提供任务全生命周期管理，让数据工程师专注数据分析。它内置高性能Fusion Engine，性能比开源Spark提升200%，并有成本优化的Celeborn服务。支持计算存储分离、OSS-HDFS兼容、DLF元数据管理，实现一站式的开发体验和Serverless资源管理。适用于数据报表、科学项目等场景，简化开发与运维流程。用户可通过阿里云控制台快速配置和体验EMR Serverless Spark服务。

周周的奇妙编程

15218 2 3

郑小健

|

分布式计算大数据数据处理

Apache Spark在大数据处理中的应用

Apache Spark是大数据处理的热门工具，由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称，提供比Hadoop更快的处理速度，支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor，核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用，并讨论了其优势（高性能、易用性、通用性和集成性）和挑战。【6月更文挑战第11天】

郑小健

508 6 6

jianz123

|

分布式计算 Hadoop 大数据

大数据处理框架在零售业的应用：Apache Hadoop与Apache Spark

【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持

jianz123

325 0 0

华章出版社

热门文章

最新文章

开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践

欢迎加入Spark中国社区

Spark SQL玩起来

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

Spark SQL性能优化

【译】使用Spark SQL 运行大规模基因组工作流

Spark集群部署和启动与关闭

《Spark大数据处理：技术、应用与性能优化》——3.3　本章小结

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

安全设备篇——WAF