开发者社区大数据文章正文

Spark 教程系列

2023-12-29 65

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark 教程系列

1.spark 基本概念

spark学习笔记（2）spark基本概念和术语解释_攻城的蒂巴格的博客-CSDN博客

2.广播变量和累加器的理解

Spark共享变量(广播变量、累加器)_SunnyRivers的博客-CSDN博客

spark 广播变量 - Angel_jing - 博客园

3.线上实际任务分析

第一部分是driver 日志，第二部分是excutor 日志

4.spark 资源设置

(1)首先检查你的最大并行度（task个数）是否大于申请的vcore个数，如果不是的话，减少executorVcores，使得executorCores*executorNum小于Spark任务的最大并行度。在executor memory不变的情况下，降低executor cores会提高单位vcore的memory使用量。

(2)如果你的Spark任务执行较慢，可提高任务的并行度，充分利用你当前申请的资源。

5.spark sql

Spark 基础教程：wordcount+Spark SQL_诸葛子房_的博客-CSDN博客

从MapReduce 到 Spark ，任务提升100倍

文章标签：

分布式计算

Spark

SQL

关键词：

apache spark教程

诸葛子房

扬流

5月前

分布式计算 Java Serverless

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

本文以 ECS 连接 EMR Serverless Spark 为例，介绍如何通过 EMR Serverless spark-submit 命令行工具进行 Spark 任务开发。

扬流

439 7 7

EMR Serverless Spark 实践教程 | 通过 spark-submit 命令行工具提交 Spark 任务

扬流

5月前

分布式计算运维 Serverless

EMR Serverless Spark 实践教程 | 通过 EMR Serverless Spark 提交 PySpark 流任务

在大数据快速发展的时代，流式处理技术对于实时数据分析至关重要。EMR Serverless Spark提供了一个强大而可扩展的平台，它不仅简化了实时数据处理流程，还免去了服务器管理的烦恼，提升了效率。本文将指导您使用EMR Serverless Spark提交PySpark流式任务，展示其在流处理方面的易用性和可运维性。

扬流

296 7 7

EMR Serverless Spark 实践教程 | 通过 EMR Serverless Spark 提交 PySpark 流任务

扬流

4月前

分布式计算 Serverless 数据处理

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务，以实现任务调度和执行的自动化，帮助您更有效地管理数据处理任务。

扬流

235 0 0

BetterBench

4月前

分布式计算 Java Linux

【Deepin 20系统】Linux 系统安装Spark教程及使用

在Deepin 20系统上安装和使用Apache Spark的详细教程，包括安装Java JDK、下载和解压Spark安装包、配置环境变量和Spark配置文件、启动和关闭Spark集群的步骤，以及使用Spark Shell和PySpark进行简单操作的示例。

BetterBench

88 0 0

杭州小哥哥

7月前

SQL 分布式计算 Hadoop

【Spark】Spark基础教程知识点

杭州小哥哥

95 0 0

诸葛子房

7月前

SQL 分布式计算 Java

Spark 基础教程：wordcount+Spark SQL

诸葛子房

71 0 0

阿甘兄

消息中间件分布式计算 Kafka

Flink教程（30）- Flink VS Spark（下）

阿甘兄

94 0 0

阿甘兄

分布式计算 API 调度

Flink教程（30）- Flink VS Spark（上）

阿甘兄

170 0 0

羽林小王子

SQL 机器学习/深度学习分布式计算

spark与pyspark教程（一）

羽林小王子

426 0 0

笑看风云路

SQL 分布式计算资源调度

Spark集群搭建超详细教程

今天为大家带来分布式计算引擎Spark集群搭建，还是使用三个虚拟机节点上进行安装部署，围绕Standalone模式和Yarn模式的这两种部署模式进行展开。

笑看风云路

933 0 0

Spark 教程系列

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark 教程系列

热门文章

最新文章

相关课程

相关电子书