集群管理工具经得起考验吗?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

如今集群设计遍地都是。最典型的例子包括软件定义存储、虚拟化架构、超级融合、公有云与私有云,以及众所周知的大数据。集群以横向扩展的方式来构建基础设施,使用商业产品,如服务器和JBOD。横向扩展的设计能够实现容量与性能递增,与大部分纵向扩展的基础架构相比,有着巨大的成本规模效益。

大集群因为其支持大规模融合与整合,可以协助优化整体资本支出,而不断吸引业内目光。那么为什么我们不把现在所有的IT基础设施都集群化呢?大规模集群管理和运维都相当复杂,尤其是在开始将工作负载和租户结合后。如果建造了一个大集群,就必须确保期能充分得到利用,也意味着需要托管大量工作负载。一旦出现这种情况,IT需要搞清楚如何合理的优先或公平分配资源。这从来不是一件简单的事——实施、配置与优化管理共享集群架构的总运营成本,通常会高于部署完全独立或向上扩展产品的总成本。

当集群在虚拟化基础架构中,虚拟化管理程序负责加强共享、隔离吵闹的邻居、动态迁移和/或重新启动受影响,甚至突然飙升的工作负载,还扮演交警的角色。这几年我们发现了该领域的长足进步,可以在虚拟机层面和虚拟存储卷级别(如VMware VVOL)上,动态执行用户指定的服务质量(QoS)。

当然,可以把基础架构云(如OpenStack)作为大型、优化管理集群资源作为整体思路。尽管如此,虚拟化和云基础架构平台需要数年时间才能成熟,目前仍然不完美。在开发云管理工具的路上还有很长的路要走,要实现在专属设备上部署系统的简化。而且在虚拟化环境内,仍然难以确保虚拟机内的应用程序能够提供最终用户可靠的响应时间。

针对大数据的集群管理工具

有效的集群管理设计对大数据尤其重要,这关系到引入企业IT规模扩展的HPC技术。Hadoop、Spark和其他可扩展NoSQL工具旨在让所有人都实现分布式处理。然而,生产大数据应用程序目前要求应用程序性能的一致性。当大数据应用支撑着关键业务流程时,运营与性能的可靠性和稳定性将成为问题。

在种类繁多的大数据工具如Hadoop集群,每个大数据作业都争夺相同的资源。到目前为止,很多Hadoop集群只是简单处理小型单一的大数据处理流程或只对小部分用户服务,通常用于非生产环境的数据科学。但随着大数据集群移入生成环境,就意味着它们需要承载更多的任务并且服务多个租户——就如大型虚拟化或云集群。而当这种集群被共享,管理大数据将成为一大挑战。

经常看到新的大数据集群管理和操作方案并不稀奇。集群管理工具一般分为几类。起步于高性能计算领域的Bright Computing公司,现在正协助企业从裸机上部署、配置与管理大型集群。

但真正的关键在于性能管理,秘诀在于了解都是谁,以及在什么时候做什么事。至少,还有标准的工具可以从集群的日志文件(通常十分巨大)中生成报告。但随着日志的增长,这个方法的效果会降低。而且当谈及运营性能,真正要做的实际上是优化混合租户与混合工作负载环境的QoS和运行时。例如,Pepperdata能生成实时运行视图,展示集群里正在发生什么,然后可以动态的控制和分配集群资源。这样可以保证优先级应用程序满足服务器级别协议,同时最小化集群基础设施的规模。

在更高的级别,大数据需要有自己专属的应用程序性能管理程序。例子之一是Concurrent的Driven,可以跟踪和回溯应用程序执行轨迹,还可以直接监控业务流程和应用程序级的工作流,应用程序之间的内部依赖、运行时和失败。这样有助于识别代码瓶颈,规划和修复工作流执行窗口,并协助数据管理。

随着横向扩展架构在数据中心内落地,集群管理工具的价值将增长——降低资源共享所需的资本支出,同时保障承诺性能和其他大数据处理业务的QoS。在某些情况下,IT没有这些集群专用工具协助,是可能无法有效处理这些大数据集群的。

总的来说,我们认为大型集群管理这十年成熟的非常快,它借鉴了虚拟化管理来解决高优先级的生产工作负载。通过学习这些虚拟化和云计算前辈,甚至可以取代他们,产生一个更为完整的集群数据中心愿景。


作者:Mike Matchett 翻译:陈德文

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
13天前
|
移动开发 小程序 测试技术
项目管理和持续集成系统搭建问题之帮助以诺行管理任务和资源如何解决
项目管理和持续集成系统搭建问题之帮助以诺行管理任务和资源如何解决
25 2
|
23天前
|
存储 运维 监控
监控与日志管理:保障系统稳定运行与高效运维的基石
【8月更文挑战第16天】监控与日志管理是保障系统稳定运行和高效运维的基石。它们不仅能够帮助企业及时发现并解决问题,还能够为性能调优、资源优化和业务决策提供有力支持。因此,在构建系统架构时,企业应高度重视监控与日志管理的规划和实施,确保它们能够充分发挥作用,为企业的发展保驾护航。同时,随着技术的不断进步和应用场景的不断拓展,监控与日志管理也将持续演进和创新,为企业带来更多的价值和便利。
|
8天前
|
运维 监控 jenkins
打造高效运维:自动化部署与监控实践
【8月更文挑战第31天】 在数字化浪潮中,运维工作如同航船的舵手,决定着企业信息系统的稳定性和效率。本文将通过浅显易懂的语言,带你了解如何利用自动化工具简化日常运维任务,提升工作效率,并确保系统健康运行。从代码示例到操作流程,我们将一步步构建起你的自动化运维体系。
|
2月前
|
机器学习/深度学习 运维 监控
DevOps实践:从自动化部署到性能监控的全面解析
在当今快速发展的软件行业中,DevOps已经成为提升效率和质量的关键。本文将深入探讨DevOps的核心概念、实施步骤及其带来的益处,同时通过实际案例分析展示如何成功实施DevOps流程,并讨论面临的挑战及未来发展趋势。
|
4月前
|
Web App开发 前端开发 测试技术
如何对自动化工具选型?
如何对自动化工具选型?
|
4月前
|
XML Prometheus 运维
自动化监控有哪些开源系统
自动化监控有哪些开源系统
106 1
|
3月前
|
运维 Kubernetes jenkins
深入理解现代运维中的自动化部署技术
自动化部署技术在现代运维中扮演着至关重要的角色。本文将详细探讨自动化部署的核心概念、主要工具和实际应用,通过案例分析展示其在提高运维效率和减少人为错误方面的重要性。
|
4月前
|
机器学习/深度学习 人工智能 运维
现代化运维管理系统下的自动化监控与故障排查
传统的运维管理方式已经无法适应日益复杂的信息技术环境,现代化运维管理系统的出现为企业提供了新的解决方案。本文将探讨在现代化运维管理系统下,自动化监控和故障排查的重要性,以及如何利用先进的技术手段提高效率,降低风险。
87 0
|
4月前
|
运维 监控 Linux
提升系统稳定性:Linux服务器性能监控与故障排查实践深入理解与实践:持续集成在软件测试中的应用
【5月更文挑战第27天】在互联网服务日益增长的今天,保障Linux服务器的性能和稳定性对于企业运维至关重要。本文将详细探讨Linux服务器性能监控的工具选择、故障排查流程以及优化策略,旨在帮助运维人员快速定位问题并提升系统的整体运行效率。通过实际案例分析,我们将展示如何利用系统资源监控、日志分析和性能调优等手段,有效预防和解决服务器性能瓶颈。
|
存储 Prometheus 运维
运维人必须掌握的5种常用工具
运维人必须掌握的5种常用工具