一键部署 spark

简介: 前言Spark简介Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。

前言

Spark简介

Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成,并且所提供的API深度借鉴Scala函数式的编程思想,提供与Scala类似的编程接口

1.准备工作

下载安装包

 scala-2.9.3:一种编程语言   Scala下载地址:http://www.scala-lang.org/download/
 spark-1.4.0:必须是编译好的Spark,如果下载的是Source,则需要自己根据环境使用SBT或者MAVEN重新编译才能使用。 Spark下载地址:http://spark.apache.org/downloads.html

如图所示:

wKioL1lfBBiik2_vAAAZRg6niHU987.png

wKiom1lfBCmjhMqvAAAeQhUK_IM727.png

2、安装scala-2.9.3

wKioL1lfBEWSf0nLAAAccT6w3M4907.png


3、安装spark-1.4.0

wKiom1lfBFqxE3aeAAAW06Lu99w381.png



4、修改Spark配置文件

wKioL1lfBKrjh8u1AAAO5hNpa9c856.png


在spark-env.sh末端添加如下几行:


wKiom1lfBNPjBC1YAABHeel1kCU965.png

  spark-defaults.conf中还有如下配置参数:



5、测试spark安装是否成功

wKioL1lfBO7TctxaAABUhkdJCs0891.png


6、使用wordcount例子测试,启动spark-shell之前先上传一份文件到hdfs
7、代码:
    val file = sc.textFile("hdfs://hadoop.master:9000/data/intput/wordcount.data")
    val count = file.flatMap(line=>(line.split(" "))).map(word=>(word,1)).reduceByKey(_+_)
    count.collect()
    count.textAsFile("hdfs://hadoop.master:9000/data/output")
理解上面的代码你需要学习scala语言。

wKiom1lfBRHydf_EAAAOvq4pqA4394.png-wh_50

总结:山不厌高,海不厌深。





相关文章
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
62 2
|
3月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
235 3
|
3月前
|
SQL 分布式计算 监控
|
4月前
|
SQL 分布式计算 监控
在hue上部署spark作业
7月更文挑战第11天
126 3
|
5月前
|
分布式计算 Shell Linux
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
62 0
|
分布式计算 大数据 Spark
基于Docker搭建大数据集群(四)Spark部署
基于Docker搭建大数据集群(四)Spark部署
|
6月前
|
分布式计算 资源调度 监控
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
197 1
|
分布式计算 资源调度 监控
Spark Yarn模式部署集群
Spark Yarn模式部署集群
83 1
|
分布式计算 资源调度 Java
大数据Spark部署模式DeployMode
大数据Spark部署模式DeployMode
170 0
|
分布式计算 Apache Spark
Apache Doris Spark Load快速体验之Spark部署(1)2
Apache Doris Spark Load快速体验之Spark部署(1)2
161 0