实现Spark部署 依赖供应商还是"自力更生"?

简介:

Apache Spark用户经常面临一个困境:继续获取来自供应商的支持还是更新版本,使用具有更新功能的快速移动的开源软件?

Novantas公司将Spark数据处理引擎作为商业Hadoop发行版的一部分。这样使得分析服务和软件提供商与Spark版本的Hadoop软件包支持的Spark版本捆绑在一起,因此,它不一定能立即访问新的Spark功能

例如,Novantas在今年年初开发的基于Hadoop的应用程序中使用了Spark 1.4,以帮助银行的分析团队在内部系统中找到相关的客户和财务数据。该版本由Apache软件基金会于2015年6月发布,去年9月被Spark 1.5取代,1月被1.6取代。但是要升级,Novantas将不得不通过Cloudera放弃Spark支持。

“我们不想使用不受支持的版本,”纽约公司Novantas解决方案技术部门CTO和工程总监Kaushik Deka说。这是因为应用程序是该部门第一次真正使用Hadoop和Spark。坚持使用Spark 1.4不太理想。Deka说,他希望当Novantas移动到一个新的技术版本可以解决问题。

这样的考虑在大数据环境中是常见的,其通常涉及以快速的速度更新的开源技术。Spark的情况尤其突出:在2014年7月到2016年7月之间,通过Apache共有18个版本,Spark 2.0版本一般都可以使用。

为了更好地使用新功能,一些组织已经避开了供应商提供的Spark支持,并自行部署了基本的Apache Spark软件。

例如,Synchronoss技术公司在2014年从Hadoop供应商MapR获得Spark。但移动管理公司Bridgewater的大数据分析平台高级主管Suren Nathan表示,公司有时直接升级到Apache Spark的新版本,以获得所需的功能。“现在,我的团队可以非常熟练地使用Spark,”他说。

Webtrends公司也一直使用基本的Spark软件。“我们正试图尽可能保持现有的发布,”来自美国的在线活动跟踪公司首席技术官Peter Crossley说,“市场上没有其他技术像这种技术一样快。”

Crossley表示,他更喜欢通过Hadoop供应商Hortonworks获得支持的Spark版本。为了尽可能做到这一点,他的团队与Hortonworks合作开发了一个“双轨发布计划”,供应商去年3月加快了Sparkand与Hadoop相关的其他大数据技术的交付。


本文作者:佚名

来源:51CTO

相关文章
|
1月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
118 3
|
1月前
|
SQL 分布式计算 监控
|
2月前
|
SQL 分布式计算 监控
在hue上部署spark作业
7月更文挑战第11天
78 3
|
3月前
|
分布式计算 Shell Linux
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
49 0
|
4月前
|
SQL 分布式计算 Java
IDEA 打包 Spark 项目 POM 文件依赖
这是一个 Maven POM 示例,用于构建一个使用 Spark 与 Hive 的项目,目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖,包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包,生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围,如 `compile`(默认),`provided`,`runtime`,`test` 和 `system`。
|
12月前
|
分布式计算 大数据 Spark
基于Docker搭建大数据集群(四)Spark部署
基于Docker搭建大数据集群(四)Spark部署
|
4月前
|
存储 缓存 分布式计算
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
|
4月前
|
分布式计算 资源调度 监控
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
173 1
|
4月前
|
SQL 分布式计算 大数据
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
203 0
|
12月前
|
分布式计算 资源调度 监控
Spark Yarn模式部署集群
Spark Yarn模式部署集群
75 1