文档备案控制台

开发者社区大数据文章正文

spark入门知识和job任务提交流程

2017-11-04 1258

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

spark是Apache开源社区的一个分布式计算引擎，基于内存计算，所以速度要快于hadoop.

下载

地址spark.apache.org

安装

复制一台单独的虚拟机，名c
修改其ip，192.168.56.200
修改其hostname为c，hostnamectl set-hostname c
修改/etc/hosts加入对本机的解析
重启网络服务 systemctl restart network
上传spark安装文件到root目录
解压spark到/usr/local下，将其名字修改为spark

本地运行模式

使用spark-submit提交job

cd /usr/local/spark
./bin/spark-submit --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.11-2.1.0.jar 10000

使用spark-shell进行交互式提交

创建root下的文本文件hello.txt
./bin/spark-shell
再次连接一个terminal，用jps观察进程，会看到spark-submit进程
sc
sc.textFile("/root/hello.txt")
val lineRDD = sc.textFile("/root/hello.txt")
lineRDD.foreach(println)
观察网页端情况
val wordRDD = lineRDD.flatMap(line => line.split(" "))
wordRDD.collect
val wordCountRDD = wordRDD.map(word => (word,1))
wordCountRDD.collect
val resultRDD = wordCountRDD.reduceByKey((x,y)=>x+y)
resultRDD.collect
val orderedRDD = resultRDD.sortByKey(false)
orderedRDD.collect
orderedRDD.saveAsTextFile("/root/result")
观察结果
简便写法：sc.textFile("/root/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect

使用local模式访问hdfs数据

start-dfs.sh
spark-shell执行：sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().collect （可以把ip换成master，修改/etc/hosts）
sc.textFile("hdfs://192.168.56.100:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortByKey().saveAsTextFile("hdfs://192.168.56.100:9000/output1")

spark standalone模式

在master和所有slave上解压spark
修改master上conf/slaves文件，加入slave
修改conf/spark-env.sh，export SPARK_MASTER_HOST=master
复制spark-env.sh到每一台slave
cd /usr/local/spark
./sbin/start-all.sh
在c上执行：./bin/spark-shell --master spark://192.168.56.100:7077 (也可以使用配置文件)
观察http://master:8080

spark on yarn模式

本文转自 ChinaUnicom110 51CTO博客，原文链接:http://blog.51cto.com/xingyue2011/1968175

文章标签：

分布式计算

Apache

Spark

关键词：

apache spark任务流程

apache spark入门流程

技术小牛人

目录

相关文章

威哥爱编程

|

存储缓存分布式计算

Spark任务OOM问题如何解决？

大家好，我是V哥。在实际业务中，Spark任务常因数据量过大、资源分配不合理或代码瓶颈导致OOM（Out of Memory）。本文详细分析了各种业务场景下的OOM原因，并提供了优化方案，包括调整Executor内存和CPU资源、优化内存管理策略、数据切分及减少宽依赖等。通过综合运用这些方法，可有效解决Spark任务中的OOM问题。关注威哥爱编程，让编码更顺畅！

威哥爱编程

1213 3 3

番茄酱脑袋

|

SQL 分布式计算 DataWorks

DataWorks产品使用合集之如何开发ODPS Spark任务

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

番茄酱脑袋

448 2 2

瓴羊Dataphin

|

SQL 分布式计算资源调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

瓴羊Dataphin

540 4 4

瓴羊Dataphin

|

分布式计算监控 Java

Dataphin功能Tips系列（47）-支持通过Spark本地客户端提交Spark Batch任务

支持通过Spark本地客户端提交Spark Batch任务

瓴羊Dataphin

361 3 3

赵渝强老师

|

分布式计算 Spark

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark RDD之间的依赖关系分为窄依赖和宽依赖。窄依赖指父RDD的每个分区最多被一个子RDD分区使用，如map、filter操作；宽依赖则指父RDD的每个分区被多个子RDD分区使用，如分组和某些join操作。窄依赖任务可在同一阶段完成，而宽依赖因Shuffle的存在需划分不同阶段执行。借助Spark Web Console可查看任务的DAG图及阶段划分。

赵渝强老师

859 15 15

刘大猫.

|

消息中间件分布式计算 Java

Linux环境下 java程序提交spark任务到Yarn报错

Linux环境下 java程序提交spark任务到Yarn报错

刘大猫.

584 5 5

vohelon

|

SQL 机器学习/深度学习分布式计算

Spark适合处理哪些任务？

【9月更文挑战第1天】Spark适合处理哪些任务？

vohelon

579 4 4

格格的阿里云

|

存储分布式计算供应链

Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决

Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决

格格的阿里云

232 2 2

武子康

|

消息中间件分布式计算 Kafka

大数据-98 Spark 集群 Spark Streaming 基础概述架构概念执行流程优缺点

大数据-98 Spark 集群 Spark Streaming 基础概述架构概念执行流程优缺点

武子康

509 0 0

热门文章

最新文章

Spark SQL玩起来

Spark SQL性能优化

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

spark中连接oracle报异常java.sql.SQLException: No suitable driver

基于Spark技术的银行客户数据分析

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

《Spark大数据处理：技术、应用与性能优化》——2.2　Spark集群初试

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

阿里云 EMR Serverless Spark：面向 Data+AI 的高性能 Lakehouse 产品

springboot项目集成dolphinscheduler调度器可拖拽spark任务管理

Spark SQL架构及高级用法

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！