Spark和Hadoop分析遇障碍?可以试试容器啊

简介:

将定制的Spark和Hadoop试点项目转移到生产中是一项艰巨的任务,但容器技术缓解了这种艰难的过渡。

当团队试图将小型试点项目转变为面向数据科学团队和业务分析人员的大型运营应用程序时,Spark和Hadoop分析工作往往会遇到困难。对于许多人来说,这是他们在大数据分析之路上遇到的最大障碍。

配置的复杂性有时候也是绊脚石。由一个单独的数据科学家构建的自定义配置的原型可能需要很长的时间来重新创建,一旦失败,是由一个更广泛的用户池共享。为了解决这些问题,一些人利用DevOps型容器和微服务技术将Spark和Hadoop组件衔接在一起。

“我们的数据科学团队和业务利益相关者不希望等待过长的时间,等我们建立一个新的Spark集群或其他大型数据环境,并提供所需的所有工具、版本、配置和数据,” 为医疗机构提供分析和咨询服务的公司董事Ramesh Thyagarajan说道。他将Docker容器视为在大数据科学家和企业用户上实现敏捷性的关键技术。

为了将这种DevOps风格部署到其大数据应用程序,咨询委员会正在使用BlueData Software的EPIC软件平台来运行Spark SQL和Spark分析引擎以及Apache Zeppelin开发人员笔记本。Thyagarajan表示:“对我们而言,这是关于敏捷性和更快速的业务创新的。BlueData平台的强大功能是将大数据部署作为基于容器的架构。”

据Thyagarajan介绍,该平台为数据科学家和业务分析师提供了新的Spark集群的按需分配,这些分析人员基本上避免了此类部署所需配置的复杂性。

他表示,他的团队建立了自己的框架,将数据带入Hadoop分布式文件系统(HDFS)。这种集中处理是很重要的,他说,“我们没有办法支持400多名用户,每个用户都创建自己的集群。”

是在脚本中运行吗?

在容器中谈论大数据为时尚早。BlueData的联合创始人兼首席架构师Tom Phelan表示,到目前为止,Spark集群主要是在裸机服务器中实施。

Tom在最近在波士顿举行的Spark Summit East 2017年的演讲中表示,裸机意味着难以改变的架构和静态实施。

容器的实现可以使用脚本由手动完成,但是由于大数据管道组件较多,因此容器变得更具挑战性。他说,Spark常常是比较复杂的、协调工作负载的一部分,这些工作量并不一定容易适应容器的方法。

他告诉会议与会者,“必须要跨过容器管理者这一关。 这也是BlueData软件需要解决的问题之一。”

弹性缩放的路径

Phelan表示,BlueData平台最近的更新解决了使用Spark的数据科学家(如咨询委员会)的实施需求。

BlueData最新版本在本月初推出,支持常用的Spark工具,如JupyterHub,RStudio Server和Zeppelin编程笔记本,作为预配置的Docker映像。目的是为数据科学带来更多DevOps风格的敏捷性。

使用Docker容器和其他微服务方法是实现应用程序部署自动化的驱动力。这些方法通常是弹性缩放的一个途径,它允许管理员根据工作负载来建立和分解计算资源。

这在云计算以及内部部署实施中日益普及,如果Spark和Hadoop的使用范围在企业中逐渐扩大,拥抱容器的加入未尝不是一件好事。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
4月前
|
NoSQL 算法 Redis
【Docker】(3)学习Docker中 镜像与容器数据卷、映射关系!手把手带你安装 MySql主从同步 和 Redis三主三从集群!并且进行主从切换与扩容操作,还有分析 哈希分区 等知识点!
Union文件系统(UnionFS)是一种**分层、轻量级并且高性能的文件系统**,它支持对文件系统的修改作为一次提交来一层层的叠加,同时可以将不同目录挂载到同一个虚拟文件系统下(unite several directories into a single virtual filesystem) Union 文件系统是 Docker 镜像的基础。 镜像可以通过分层来进行继承,基于基础镜像(没有父镜像),可以制作各种具体的应用镜像。
619 5
|
11月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
565 79
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
598 6
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
348 2
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
856 58
|
12月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
293 0
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
614 2
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
520 1
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
548 0
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
629 0

相关实验场景

更多