spark入门(2.0.1版本):概述,下载,编译,运行环境及实例运行

简介: spark入门(2.0.1版本):概述,下载,编译,运行环境及实例运行
+关注继续查看

概述


spark是一个快速通用的计算系统集群。它提供Java高级APIs,Scala,Python和R和一个支持通用执行graphs优化引擎。他还支持一组丰富的高级工具包括spark sql和结构化数据处理,mllib机器学习, GraphX图像处理和Spark Streaming.

下载


下载链接:http://spark.apache.org/downloads.html

当前最新版本2.0.1


1.通过maven下载

spark托管在maven中央库,可以通过下载依赖下载

groupId: org.apache.spark
artifactId: spark-core_2.11
version: 2.0.1spark入门(2.0.1版本):概述,下载,编译,运行环境及实例运行


2.通过git下载

# Master development branch
git clone git://github.com/apache/spark.git
 
# 2.0 maintenance branch with stability fixes on top of Spark 2.0.1
git clone git://github.com/apache/spark.git -b branch-


3.直接下载安装包

spark-2.0.1-bin-hadoop2.7.tgz


网盘下载:

https://yunpan.cn/cvmIFgVAajIw4  访问密码 7943


编译



如果你想编译源码,可以访问http://spark.apache.org/docs/latest/building-spark.html



spark运行系统


spark运行在window和类UNIX系统(比如Linux, Mac OS),在一台机器上运行是很容易的。前提是必须按照Java,并且配置path或则JAVA_HOME 


spark运行语言API版本要求


Spark运行在 Java 7+, Python 2.6+/3.4+ 和R 3.1+.


比如 Scala API, Spark 2.0.1使用 Scala 2.11.你需要使用兼容Scala version (2.11.x).



运行例子和shell


spark有附带的几个例子。在目录 examples/src/main包括Scala, Java, Python 和R 例子。运行Java 或则Scala例子程序, 使用bin/run-example [params]在顶级目录.例如:

./bin/run-example SparkPi 10

你可以运行spark通过 Scala shell,这是一个很好的方法学习框架

./bin/spark-shell --master local[2]


--master选项指定分布式集群的 master URL 或则本地运行一个线程,或则local[N] 运行本地几个线程。你可以开始使用local测试。所有选项列表,可以使用  --help 选项.


spark也提供了Python API,使用Python脚本运行spark,使用 bin/pyspark:

./bin/pyspark --master local[2]


应用程序也提供了Python例子,例如


./bin/spark-submit examples/src/main/python/pi.py 10


自从1.4(仅包括DataFrames APIs),spark也提供了R例子。使用R脚本运行spark,使用bin/sparkR:


./bin/sparkR --master local[2]./bin/pyspark --master local[2]


应用程序也提供了R例子,例如


./bin/spark-submit examples/src/main/r/dataframe.R./bin/pyspark --master local[2]


目录
相关文章
|
9月前
|
分布式计算 Hadoop Java
spark编译:构建基于hadoop的spark安装包及遇到问题总结
spark编译:构建基于hadoop的spark安装包及遇到问题总结
224 0
spark编译:构建基于hadoop的spark安装包及遇到问题总结
|
9月前
|
分布式计算 监控 Java
日志分析实战之清洗日志小实例3:如何在spark shell中导入自定义包
日志分析实战之清洗日志小实例3:如何在spark shell中导入自定义包
111 0
日志分析实战之清洗日志小实例3:如何在spark shell中导入自定义包
|
9月前
|
分布式计算 监控 Hadoop
日志分析实战之清洗日志小实例1:使用spark&Scala分析Apache日志
日志分析实战之清洗日志小实例1:使用spark&Scala分析Apache日志
190 0
日志分析实战之清洗日志小实例1:使用spark&Scala分析Apache日志
|
分布式计算 Java Scala
Spark源码打包编译的过程
Spark源码打包编译的过程
185 0
Spark源码打包编译的过程
|
分布式计算 大数据 Hadoop
[大数据之Spark]——Actions算子操作入门实例
Actions reduce(func) Aggregate the elements of the dataset using a function func (which takes two arguments and returns one). The function should be commutative and associative so that it can be computed correctly in parallel. 这个方法会传入两个参数,计算这两个参数返回一个结果。
874 0
|
分布式计算 大数据 Spark
[大数据之Spark]——Transformations转换入门经典实例
Spark相比于Mapreduce的一大优势就是提供了很多的方法,可以直接使用;另一个优势就是执行速度快,这要得益于DAG的调度,想要理解这个调度规则,还要理解函数之间的依赖关系。 本篇就着重描述下Spark提供的Transformations方法. 依赖关系 宽依赖和窄依赖 窄依赖(narrow dependencies) 窄依赖是指父RDD仅仅被一个子RDD所使用,子RDD的每个分区依赖于常数个父分区(O(1),与数据规模无关)。
653 0
|
分布式计算 Shell Spark
相关产品
云迁移中心
推荐文章
更多