如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】

简介: 如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】

方法


当我们安装spark的时候,很多时候都会遇到这个问题,如何找到对应spark的各个组件的版本,找到比较标准的版本兼容信息。答案在spark源码中的pom文件。首先我们从官网下载源码。进入官网

http://spark.apache.org

选择download,然后我们看到下面内容


# Master development branch
git clone git://github.com/apache/spark.git
# Maintenance branch with stability fixes on top of Spark 2.2.0
git clone git://github.com/apache/spark.git -b branch-2.2

a4a3eb89626319ec41dab05dee81913e.jpg

我们看到上面需要使用git下载。

如果你是window,那么可以装一个Linux虚拟机,或则直接在window上安装。window安装遇到的问题可参考

win7安装 git软件下载以及遇到的问题解决解决方法

http://www.aboutyun.com/forum.php?mod=viewthread&tid=8521

这里使用Linux安装,更加方便。执行下面命令



sudo yum install perl openssh git -y

上面安装完毕,下载源码


git clone git://github.com/apache/spark.git

当然如果你不想这么麻烦,只想查看pom.xml文件,也可以直接访问


github.com/apache/spark.git

然后打开pom.xml即可


https://github.com/apache/spark/blob/master/pom.xml

这时候我们可以查看里面的兼容信息spark的版本为2.3.0-SNAPSHOT

82a228a4794b90f9005e7d08b4559d05.jpg

接着我们找到里面有各种所需软件的信息,比如

jdk1.8,hadoop位2.6.5,2.7.1,2.7.3。

flume版本为flume1.6.0,

zookeeper版本为3.4.6

hive为:1.2.1

scala为:2.11.8



这样我们在安装的时候就找到它们版本兼容的依据。

当然官网提供一种编译的版本,剩下的需要我们自己编译。下一篇我们讲该如何编译我们想要的版本。

17765d362467405a4d1af923970f294f.jpg

这里需要说明的一个地方即maven的profile,是为了适应不同的版本。我们在编译的时候,可以通过-P指定版本


4db3af948fdce2c12208704dbf335193.jpg

目录
相关文章
|
2月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
190 79
|
2月前
|
SQL 分布式计算 IDE
如何在IDE中通过Spark操作Hive
通过以上方法和代码示例,你可以在IDE中成功通过Spark操作Hive,实现大规模数据处理和分析。确保理解每一步的实现细节,应用到实际项目中时能有效地处理各种复杂的数据场景。
154 28
|
2月前
|
SQL 分布式计算 关系型数据库
基于云服务器的数仓搭建-hive/spark安装
本文介绍了在本地安装和配置MySQL、Hive及Spark的过程。主要内容包括: - **MySQL本地安装**:详细描述了内存占用情况及安装步骤,涉及安装脚本的编写与执行,以及连接MySQL的方法。 - **Hive安装**:涵盖了从上传压缩包到配置环境变量的全过程,并解释了如何将Hive元数据存储配置到MySQL中。 - **Hive与Spark集成**:说明了如何安装Spark并将其与Hive集成,确保Hive任务由Spark执行,同时解决了依赖冲突问题。 - **常见问题及解决方法**:列举了安装过程中可能遇到的问题及其解决方案,如内存配置不足、节点间通信问题等。
248 1
基于云服务器的数仓搭建-hive/spark安装
|
2月前
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
|
7月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
348 6
|
7月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
157 2
|
9月前
|
消息中间件 分布式计算 Hadoop
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决
101 3
|
5月前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
226 4
|
6月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
321 2
|
6月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
274 1