如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】

简介: 如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】

方法


当我们安装spark的时候,很多时候都会遇到这个问题,如何找到对应spark的各个组件的版本,找到比较标准的版本兼容信息。答案在spark源码中的pom文件。首先我们从官网下载源码。进入官网

http://spark.apache.org

选择download,然后我们看到下面内容


# Master development branch
git clone git://github.com/apache/spark.git
# Maintenance branch with stability fixes on top of Spark 2.2.0
git clone git://github.com/apache/spark.git -b branch-2.2

a4a3eb89626319ec41dab05dee81913e.jpg

我们看到上面需要使用git下载。

如果你是window,那么可以装一个Linux虚拟机,或则直接在window上安装。window安装遇到的问题可参考

win7安装 git软件下载以及遇到的问题解决解决方法

http://www.aboutyun.com/forum.php?mod=viewthread&tid=8521

这里使用Linux安装,更加方便。执行下面命令



sudo yum install perl openssh git -y

上面安装完毕,下载源码


git clone git://github.com/apache/spark.git

当然如果你不想这么麻烦,只想查看pom.xml文件,也可以直接访问


github.com/apache/spark.git

然后打开pom.xml即可


https://github.com/apache/spark/blob/master/pom.xml

这时候我们可以查看里面的兼容信息spark的版本为2.3.0-SNAPSHOT

82a228a4794b90f9005e7d08b4559d05.jpg

接着我们找到里面有各种所需软件的信息,比如

jdk1.8,hadoop位2.6.5,2.7.1,2.7.3。

flume版本为flume1.6.0,

zookeeper版本为3.4.6

hive为:1.2.1

scala为:2.11.8



这样我们在安装的时候就找到它们版本兼容的依据。

当然官网提供一种编译的版本,剩下的需要我们自己编译。下一篇我们讲该如何编译我们想要的版本。

17765d362467405a4d1af923970f294f.jpg

这里需要说明的一个地方即maven的profile,是为了适应不同的版本。我们在编译的时候,可以通过-P指定版本


4db3af948fdce2c12208704dbf335193.jpg

目录
相关文章
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
188 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
80 2
|
2月前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
45 0
|
2月前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
101 0
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
115 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
80 1
|
2月前
|
消息中间件 分布式计算 Kafka
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
59 0
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
65 0
|
2月前
|
消息中间件 存储 运维
为什么说Kafka还不是完美的实时数据通道
【10月更文挑战第19天】Kafka 虽然作为数据通道被广泛应用,但在实时性、数据一致性、性能及管理方面存在局限。数据延迟受消息堆积和分区再平衡影响;数据一致性难以达到恰好一次;性能瓶颈在于网络和磁盘I/O;管理复杂性涉及集群配置与版本升级。
103 1
|
2月前
|
消息中间件 Java Kafka
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
58 1