spark入门(2.0.1版本):概述,下载,编译,运行环境及实例运行

简介: spark入门(2.0.1版本):概述,下载,编译,运行环境及实例运行

概述


spark是一个快速通用的计算系统集群。它提供Java高级APIs,Scala,Python和R和一个支持通用执行graphs优化引擎。他还支持一组丰富的高级工具包括spark sql和结构化数据处理,mllib机器学习, GraphX图像处理和Spark Streaming.

下载


下载链接:http://spark.apache.org/downloads.html

当前最新版本2.0.1


1.通过maven下载

spark托管在maven中央库,可以通过下载依赖下载

groupId: org.apache.spark
artifactId: spark-core_2.11
version: 2.0.1spark入门(2.0.1版本):概述,下载,编译,运行环境及实例运行


2.通过git下载

# Master development branch
git clone git://github.com/apache/spark.git
# 2.0 maintenance branch with stability fixes on top of Spark 2.0.1
git clone git://github.com/apache/spark.git -b branch-


3.直接下载安装包

spark-2.0.1-bin-hadoop2.7.tgz


网盘下载:

https://yunpan.cn/cvmIFgVAajIw4  访问密码 7943


编译



如果你想编译源码,可以访问http://spark.apache.org/docs/latest/building-spark.html



spark运行系统


spark运行在window和类UNIX系统(比如Linux, Mac OS),在一台机器上运行是很容易的。前提是必须按照Java,并且配置path或则JAVA_HOME


spark运行语言API版本要求


Spark运行在 Java 7+, Python 2.6+/3.4+ 和R 3.1+.


比如 Scala API, Spark 2.0.1使用 Scala 2.11.你需要使用兼容Scala version (2.11.x).



运行例子和shell


spark有附带的几个例子。在目录 examples/src/main包括Scala, Java, Python 和R 例子。运行Java 或则Scala例子程序, 使用bin/run-example  [params]在顶级目录.例如:

./bin/run-example SparkPi 10

你可以运行spark通过 Scala shell,这是一个很好的方法学习框架

./bin/spark-shell --master local[2]


--master选项指定分布式集群的 master URL 或则本地运行一个线程,或则local[N] 运行本地几个线程。你可以开始使用local测试。所有选项列表,可以使用  --help 选项.


spark也提供了Python API,使用Python脚本运行spark,使用 bin/pyspark:

./bin/pyspark --master local[2]


应用程序也提供了Python例子,例如


./bin/spark-submit examples/src/main/python/pi.py 10


自从1.4(仅包括DataFrames APIs),spark也提供了R例子。使用R脚本运行spark,使用bin/sparkR:


./bin/sparkR --master local[2]./bin/pyspark --master local[2]


应用程序也提供了R例子,例如


./bin/spark-submit examples/src/main/r/dataframe.R./bin/pyspark --master local[2]


目录
相关文章
|
7月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
228 1
Spark快速大数据分析PDF下载读书分享推荐
|
4月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
110 2
|
20天前
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
4月前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
73 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
4月前
|
存储 分布式计算 算法
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
90 0
|
4月前
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
65 0
|
4月前
|
SQL 存储 分布式计算
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
72 0
|
7月前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
8月前
|
分布式计算 DataWorks 网络安全
DataWorks操作报错合集之还未运行,spark节点一直报错,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
9月前
|
分布式计算 Java Hadoop
Spark3.3.0源码编译补充篇-抓狂的证书问题
Spark3.3.0源码编译补充篇-抓狂的证书问题
59 0