云上是时候丢掉Hadoop混合部署概念了

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介:

Hadoop体系里面,有个非常让其拥趸津津乐道的概念,混合部署。其基本含义就是将多个应用和组件部署在一个集群,共享一套资源,以获取资源的高效利用。物理机环境没有弹性的能力,这个混合部署概念弥补了部分弹性的需求。

先来看下产生的历史,Hadoop 1.0时代只有MapReduce/hdfs/zookeeper三大件,1.0时代只有MapReduce一种服务,没有共享的必要。Hadoop 2.0 YARN横空出世,主要概念来源于伯克利的mesos的思路,期望用同一个资源管理器管理所有资源共享给所有服务。YARN最主要作用就是将物理机环境的所有资源全部管理起来;各种该服务的资源由YARN统一分配和管理。随着资源管理器的发展的同时,2.0时代应用繁荣起来MapReduce/Hive/Spark/Hue/HBase,中间为了解决长期运行资源服务管理问题,还有一个专门的slider组件。Mesos出来也更早,相当长一段时间mesos和yarn还竞争了一把;最后mesos拗不过社区的力量改道搞应用部署,又去和K8S PK上了。

总的来说,在物理机环境中,这个思路还是非常先进的,但是今天演进到云环境是否还适用值得商榷一下,为什么这么说:

  • 云时代,资源都是云平台统一管理。首先分配的粒度本身就很细,可以支持到0.5个cpu。需要多少,向云平台申请,用多少付费多少,非常弹性;可以如果还是老思路,提前固定申请一批,再分配给各个应用。完全没有享受云弹性的能力。
  • 其次可以根据不同的应用需求,还可以灵活申请不同的规格,更好的匹配应用特点和充分利用资源。比如有些应用需要cpu多,有些应用需要IO强;YARN只能统一管理同规格服务器,很难照顾到每个应用的不同需求,非常容易申请过多,造成资源浪费。
  • YARN概念非常先进,但是实际上管的好还是MapReduce,YARN一直没有很好的解决应用之间的资源争抢问题,尤其是不同特点的应用。例如HBase这种常驻型服务,机制上为了保证实时性,会尽量去占用所有的内存,HBase跑的好,其他服务就跑不好;其他服务跑好了,HBase基本也跑不好。类似问题spark,storm等都有。

所以云上最合理的是每个服务跟进自己的特点和需求,单独申请资源,自行管理。是时候丢掉在物理机时髦的混合部署的概念了。要充分去利用云平台本身的弹性能力。当能大部分公司,最简单的方法就是直接申请对应的云服务,将这些复杂的资源管理和运维的工作让云服务厂商负责,从而专注自己的业务。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
6月前
|
分布式计算 资源调度 Hadoop
Hadoop节点资源扩展环境部署
【4月更文挑战第16天】扩展Hadoop集群涉及多个步骤:准备新节点,配置静态IP,安装并配置Hadoop,将新节点添加到集群,验证测试,及优化调整。确保符合硬件需求,更新集群节点列表,执行`hdfs dfsadmin -refreshNodes`命令,检查新节点状态,并依据测试结果优化性能。注意不同环境可能需要调整具体步骤,建议参照官方文档并在测试环境中预演。
57 4
|
30天前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
62 2
|
5月前
|
存储 分布式计算 Hadoop
Hadoop Distributed File System (HDFS): 概念、功能点及实战
【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。
615 4
|
1月前
|
分布式计算 Hadoop Unix
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
39 1
|
1月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
44 0
|
6月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
299 2
|
3月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
|
3月前
|
分布式计算 Ubuntu Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
|
3月前
|
存储 分布式计算 Hadoop
|
3月前
|
SQL 分布式计算 Hadoop
centos7通过CDH部署Hadoop
centos7通过CDH部署Hadoop