集群管理工具经得起考验吗?

简介:

如今集群设计遍地都是。最典型的例子包括软件定义存储、虚拟化架构、超级融合、公有云与私有云,以及众所周知的大数据。集群以横向扩展的方式来构建基础设施,使用商业产品,如服务器和JBOD。横向扩展的设计能够实现容量与性能递增,与大部分纵向扩展的基础架构相比,有着巨大的成本规模效益。

大集群因为其支持大规模融合与整合,可以协助优化整体资本支出,而不断吸引业内目光。那么为什么我们不把现在所有的IT基础设施都集群化呢?大规模集群管理和运维都相当复杂,尤其是在开始将工作负载和租户结合后。如果建造了一个大集群,就必须确保期能充分得到利用,也意味着需要托管大量工作负载。一旦出现这种情况,IT需要搞清楚如何合理的优先或公平分配资源。这从来不是一件简单的事——实施、配置与优化管理共享集群架构的总运营成本,通常会高于部署完全独立或向上扩展产品的总成本。

当集群在虚拟化基础架构中,虚拟化管理程序负责加强共享、隔离吵闹的邻居、动态迁移和/或重新启动受影响,甚至突然飙升的工作负载,还扮演交警的角色。这几年我们发现了该领域的长足进步,可以在虚拟机层面和虚拟存储卷级别(如VMware VVOL)上,动态执行用户指定的服务质量(QoS)。

当然,可以把基础架构云(如OpenStack)作为大型、优化管理集群资源作为整体思路。尽管如此,虚拟化和云基础架构平台需要数年时间才能成熟,目前仍然不完美。在开发云管理工具的路上还有很长的路要走,要实现在专属设备上部署系统的简化。而且在虚拟化环境内,仍然难以确保虚拟机内的应用程序能够提供最终用户可靠的响应时间。

针对大数据的集群管理工具

有效的集群管理设计对大数据尤其重要,这关系到引入企业IT规模扩展的HPC技术。Hadoop、Spark和其他可扩展NoSQL工具旨在让所有人都实现分布式处理。然而,生产大数据应用程序目前要求应用程序性能的一致性。当大数据应用支撑着关键业务流程时,运营与性能的可靠性和稳定性将成为问题。

在种类繁多的大数据工具如Hadoop集群,每个大数据作业都争夺相同的资源。到目前为止,很多Hadoop集群只是简单处理小型单一的大数据处理流程或只对小部分用户服务,通常用于非生产环境的数据科学。但随着大数据集群移入生成环境,就意味着它们需要承载更多的任务并且服务多个租户——就如大型虚拟化或云集群。而当这种集群被共享,管理大数据将成为一大挑战。

经常看到新的大数据集群管理和操作方案并不稀奇。集群管理工具一般分为几类。起步于高性能计算领域的Bright Computing公司,现在正协助企业从裸机上部署、配置与管理大型集群。

但真正的关键在于性能管理,秘诀在于了解都是谁,以及在什么时候做什么事。至少,还有标准的工具可以从集群的日志文件(通常十分巨大)中生成报告。但随着日志的增长,这个方法的效果会降低。而且当谈及运营性能,真正要做的实际上是优化混合租户与混合工作负载环境的QoS和运行时。例如,Pepperdata能生成实时运行视图,展示集群里正在发生什么,然后可以动态的控制和分配集群资源。这样可以保证优先级应用程序满足服务器级别协议,同时最小化集群基础设施的规模。

在更高的级别,大数据需要有自己专属的应用程序性能管理程序。例子之一是Concurrent的Driven,可以跟踪和回溯应用程序执行轨迹,还可以直接监控业务流程和应用程序级的工作流,应用程序之间的内部依赖、运行时和失败。这样有助于识别代码瓶颈,规划和修复工作流执行窗口,并协助数据管理。

随着横向扩展架构在数据中心内落地,集群管理工具的价值将增长——降低资源共享所需的资本支出,同时保障承诺性能和其他大数据处理业务的QoS。在某些情况下,IT没有这些集群专用工具协助,是可能无法有效处理这些大数据集群的。

总的来说,我们认为大型集群管理这十年成熟的非常快,它借鉴了虚拟化管理来解决高优先级的生产工作负载。通过学习这些虚拟化和云计算前辈,甚至可以取代他们,产生一个更为完整的集群数据中心愿景。


作者:Mike Matchett 翻译:陈德文

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
XML Prometheus 运维
自动化监控有哪些开源系统
自动化监控有哪些开源系统
68 1
|
6月前
|
缓存 负载均衡 监控
聊聊深入挖掘业务需求,可0-1设计高可用、高并发、高伸缩的分布式项目架构,环境搭建、自动化部署、服务器环境线上排查、性能评估
聊聊深入挖掘业务需求,可0-1设计高可用、高并发、高伸缩的分布式项目架构,环境搭建、自动化部署、服务器环境线上排查、性能评估
|
8月前
|
运维 关系型数据库 MySQL
【运维知识进阶篇】集群架构体系及虚拟机准备工作
【运维知识进阶篇】集群架构体系及虚拟机准备工作
101 0
|
XML 运维 监控
如何进行PHP应用的监控和运维?底层原理是什么?
如何进行PHP应用的监控和运维?底层原理是什么?
155 0
|
运维 监控 安全
高效运维:运维自动化之殇
自动化运维到底需要做什么呢?我们做了这么长时间的运维自动化,还有什么是没做的呢?怎样更优雅的实施运维自动化?运维自动化是万能的么?有哪些潜在问题?高效运维社区发起人,开放运维联盟主席萧田国将为大家分享运维自动化的那些事。
6218 0
|
机器学习/深度学习 弹性计算 人工智能
运维大杀器来了,未来云上服务器或将实现无人值守
9月26日,阿里巴巴高级技术专家滕圣波在《GOPS全球运维大会》上发表了题为《云上服务器无人值守与自助服务实战》的主题演讲,本文根据滕圣波的演讲整理。
运维大杀器来了,未来云上服务器或将实现无人值守
|
运维 Kubernetes Cloud Native
灵活、高效的云原生集群管理经验:用 K8s 管理 K8s
单 K8s 集群为用户提供了 Namespace 级别的隔离能力,理论上支持不超过 5K Node、15W Pod。多 K8s 集群则解决了单集群的资源隔离、故障隔离难题,打破可支持节点数、Pod 数的限制,但与此同时也带来了集群管理复杂度的上升;尤其在专有云场景中,K8s 工程师不可能像在公有云中一样快速触达客户环境,运维成本被进一步放大。因此如何低成本、高效率、自动化低管理多套 K8s 集群,成为业内普遍难题。
灵活、高效的云原生集群管理经验:用 K8s 管理 K8s
|
消息中间件 弹性计算 运维
在家运维不用慌 | 盘点那些远程运维中的云上利器
远程办公期间,降低非必要的协作成本和本地操作,来提升开发和运维效率,显得尤为重要。本文是“在家运维不用慌”系列文章,文末有惊喜!
703 0
在家运维不用慌 | 盘点那些远程运维中的云上利器
|
存储 运维 数据库
Rainbond集群安装和运维原理解读
本文将解读Rainbond集群的安装和运维的原理,使用户基本了解Rainbond的安装机制和运维重点,便于用户搭建大型Rainbond集群。
1595 0