健康与风险:数据中心容量管理的新模式

简介:

有分析公司认为,当前对于任何大型IT企业都必不可少的流程:容量能力管理往往都非常的复杂。而且,在当今加速发展的商业世界中,这种管理往往无法有效实施。优先级的改变、日益增加的复杂性和可扩展的云基础架构使得传统的容量管理模式已经不太奏效。在新技术的支持下,由创新的IT领导者推动,新的容量能力管理模式正在出现。这种新的模式将IT资源使用视为对业务有意义的,使用自动化和分析来管理复杂性,并减少人工操作。

在本文中,我们将与广大读者诸君共同讨论如何将容量管理中所涉及到的复杂监控、分析和预测缩减为一项健康的服务(当前绩效)指标,以及服务风险(未来绩效)的一个指标,使所有利益相关方更易于管理和更具可视化。

容量管理的战略优势

  容量管理平衡成本和风险

在简化的意义上,IT容量管理是平衡业务服务的成本和性能的基础,其中基础设施的分配和配置是支点。如果您企业的基础设施配置不当或不足以支持业务需求,可能会发生长时间的响应时间问题和中断,从而使业务损失高达上百万。

避免这种情况的一种典型方法是过度配置基础设施,即估计所需要的容量,并使之翻一番。据估计,多达50%的云基础设施是未使用的,这种现象在物理存储中甚至更多。过度配置浪费了大量的硬件,软件许可和管理成本。而诀窍就在于合理化您企业的基础设施规模,以满足当前的需求,并确切的知道何时何地需要增加多少额外的容量。

为了有效优化业务服务,容量管理过程由四个主要步骤组成:

1、数据收集和管理。收集您企业环境中每款应用程序、服务和系统的详细信息和相关的性能数据。

2、数据分析。分析数据以确定服务的健康状况,潜在的性能问题以及这些问题的根本原因,以便您可以解决这些问题。

3、预测。准确预测资源短缺何时何地会发生,这样才能避免资源短缺。

4、提交可执行的信息。为各利益相关方:IT分析师、服务经理和业务领导提供他们可以据此做出决策所需的信息。

使IT变得如此具有挑战性的是,鉴于动态发展的技术,不断变化的业务需求和需求的增长都增加了复杂性,使得IT环境不断变化。时间一直是性能问题的本质,但是IT人员分散在各种任务和项目中,减少了确保服务交付的时间。最后,容量管理专长越来越少。根据一家业界领先的分析公司Research In Action预测,到2020年,容量和性能管理的技能缺乏将成为75%的企业增长的主要制约因素或风险。

或许正是由于这些挑战的存在,使得许多技术领导者认为,容量管理是一大竞争优势,在未来几年将会变得更加如此。据Research In Action预测,到2020年,35%的企业将使用容量管理工具来获得竞争优势(而今天的比例则为20%)。

有效的容量管理所带来的竞争优势:

1、减少了员工致力于提供高可用性和一致的服务所花费的时间

2、减少任务关键型应用程序的停机时间和瓶颈

3、优化硬件,软件和云存储投资

4、更有效的业务规划,使IT投资与业务目标保持一致

5、保护企业品牌声誉

借助自动化管理复杂性

近年来,大部分已经成功的部署了容量管理的IT企业均使用了分析和自动化。这种方法的优点是速度和准确性,即使在非常复杂的环境中,但需要花费相当的时间,并采用恰当的工具和流程来有效实施。

要了解这种方法,如下,让我们来探讨前面所述的每个核心流程:

1、数据收集和管理

2、数据分析

3、预测

4、提供可执行的信息

数据采集

性能数据必须以具备足够的细粒度级别进行收集,以满足业务交易的需求。例如,实时交易和在线购物需要比批量处理更多的细粒度。请记住,您企业所使用的收集工具必须以自动化和高度可扩展的方式提供详细,及时的数据,以确保项目的成功。

数据分析

传统上,这种分析是由容量管理专家通过简单的工具(如电子表格)“手动”检查数据;或通过构建和维护定制的工具和查询来执行的。这种类型的手动分析需要花费大量的时间和专业知识,并用到在许多企业中已经薄弱的资源。自动化是一大解决对策,尽管在这方面存在较少的可行解决方案。历史上,许多这些“自动化”解决方案仍然需要大量的时间来设置,并在提供有用的信息方面仍然受限。然而,技术现在可以用更实际和更有效的方式解决分析问题。

预测

为了准确预测性能,我们需要认识到,计算机系统的行为不是线性的。如果其是线性的,那么预测就像线性趋势一样简单。现实是排队发生。排队是指当一款CPU、控制器或其他设备有超出其所能够执行处理的工作进入时的情况。然后,服务不得不等待排队,就像排队等待在商店款台结帐一样。当只有很短的队伍或没有排队时,响应时间与所添加的工作成比例。您企业再添加一些工作,一些应用程序或基础架构,就有了更多的工作亟待处理。排队由此开始,突然间的延迟是巨大的。这就是所谓的曲线中可怕的拐点,之后的响应时间呈指数增长——等待时间比工作时间还要长,响应受到很大的影响。

  经常,IT假设延迟将始终是线性的,而他们也正在疯狂地争取解决这一问题。

为了避免拐点,许多IT机构遵循始终不让系统所处理的任务太繁忙的策略,这意味着过度配置——保险但却造成了浪费。他们为避免拐点付出了太多代价。

你企业必须清楚的知道拐点将在何处出现,以便在没有过度配置的情况下避免它,这需要了解IT组件如何交互来执行工作。使用各种技术来预测性能的不同程度的精度,从Excel电子表格到线性趋势,到模拟建模,再到分析建模。

然而,直到最近,这些解决方案都需要用到大量的专业知识,专长和时间。庆幸的是,现在可以非常及时地自动获得预测。

提供可执行的信息

有效执行上述三个领域的结果应是生成可执行的信息和具备可视化的报告。由于IT决策通常对整个业务有影响,因此这些信息也必须以对非IT利益相关者有意义的方式呈现。例如,根据业务指标(如销售,SLA或正常运行时间)而不是根据诸如内存或I /O等IT指标。IT部门花费数百或数千小时为各利益相关者创建报告并不常见。尽可能的情况下,报告任务也应自动化,使IT人员能够专注于主动解决问题和创新。

案例:JN数据公司如何管理复杂性

实时识别和理解企业中值得关注的内容帮助JN数据公司的容量经理Henrik Tonnisen向主要客户(其中包括丹麦第三大银行Jyske Bank和丹麦最大的抵押贷款公司Nykredit)交付提供了市场领先的服务,资源效率和透明度。

为此,Tonnisen将来自数万台服务器的技术数据融合到动态的自助服务报告中,以满足每个业务利益相关者的需求,将讨论从复杂的技术指标转变为可操作的业务信息。

Tonnisen表示,他们的团队在宣布推出新的自助报告仪表板后,获得了利益相关者的一致好评。

一种新的模式

自动化和分析已被证明对现代容量管理所带来的挑战是有效的。然而,直到最近,这些解决方案也仍然需要大量的时间和专门知识来实现有效的实施。

当前,一种新的模式正席卷了整个行业。这种新的模式使用自动健康和风险评分来识别当前和未来的性能,以及未来的时间框架和严重程度问题。这是游戏规则的一个改变:节省了时间,需要的专业知识更少,使所有IT10企业的容量管理更简单,更易于访问。

为了方便计算每项服务的简单,易于理解的健康和风险分数,在幕后运行的是复杂的算法。监控列表可以被定义为将注意力集中在您所使用的服务上,负责并且容易地确定需要采取的行动,无论是解决当前问题还是扩展容量,以避免未来的问题。您企业不再需要花费数不清的时间在数据上了。自动算法将为您执行。

为什么要实行健康和风险评分?

健康和风险分数涉及容量管理过程中的两大主要功能领域:

1、性能管理——识别和解决导致应用程序响应缓慢和服务中断的性能问题(健康状况)

2、容量规划——预测何时需要进行容量升级或额外的基础架构,以避免服务性能不佳或中断(风险)

健康和风险分数如何计算?健康分数

通过深入了解包含服务的每个系统来计算健康评分。分析排队网络模型用于计算实际的CPU和I / O性能,并与每个系统的理论最佳性能相比较。内存将根据当前的利用率进行评估,并通过查找与内存管理的正常活动级别的任何偏差来进行评估。通过检查当前可用容量和历史行为模式来评估磁盘空间使用情况。分析结果被整合并归一化,以创建一个易于解释的健康评分,范围从0到100,0-44表示健康状况不佳,45-54表示需要警告,55-100表示 健康状况良好。

风险评分

风险评分是通过运行容量规划算法来确定的,进而预测将来服务将如何运行。容量规划算法预测服务增长率对构成服务的系统的影响。分析排队网络模型用于计算未来的CPU和磁盘I / O性能,并与系统的理论最优性能进行比较。这些模型产生了一系列预测,这些预测说明了我们之前讨论的计算系统中固有的非线性行为。

通过评估活动模式并在预测期结束时预测磁盘空间的使用情况。基于这些计算,生成风险分数来表示预测风险的严重性。风险分数归一化为0至100的范围,以代表风险量,0-44表示低风险,45-54表示警告,55-100表示 高风险。除了风险评分,还将预计发生性能不佳或停电情况的日期。通过在预测结果中查找一次性事件和周期性行为来预测风险何时发生,并计算发生风险的天数。

简单性是王道

鉴于所有的工作自动发生在幕后,容量管理要简单得多,所有的IT企业都更容易访问。企业不再需要雇佣大量数据科学家,工作人员的工作时间得以节省下来,预测不再需要内行专家。 IT人员和服务经理可以查看健康和风险的单一指标,其次知道应该在哪里集中注意力。

准确性事项

算法和计算的准确性非常重要。那么他们有多准确呢?

1、对于CPU和I / O活动而言,到目前为止,最准确的健康和风险测定使用分析排队网络模型。

2、对于磁盘空间和内存而言,智能算法评估利用率和子系统活动的模式,以准确地解释当前,并预测未来的利用率。

所有这些方法都适应工作负载,配置和其他环境变化。使用这些方法与复杂的算法,最终的结果是行业中最准确的健康和风险计算,准确率通常为95%。

评估您企业的选项

目前市场上有各种容量管理解决方案,可满足不同的企业环境和不同需求。而为了有效地评估它们,比较功能和方法是有帮助的,并且有助于理解它们将如何影响您企业的容量管理成果。

为了确定IT和业务服务的健康状况,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:

标准阈值比较

增强阈值比较

事件检测

从正常运行到变化的比较

分配比较

排队理论

为了确定IT和业务服务的风险,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:

线性趋势

增强趋势

事件预测

分配预测

排队理论

诸如标准阈值比较和事件检测等选项更容易设置,但提供的精度要低得多。分配比较和预测适用于虚拟环境,但是缺乏驱动资源效率的能力,因为它们需要考虑分配的内容与使用的内容。排队理论需要智能配置和细粒度数据,但在确定服务健康和风险方面提供了更为准确的结果。

在选择企业容量管理解决方案时,应考虑以下因素:

环境中的物理和虚拟服务器的数量

IT企业所管理的服务的数量

未来3年预计的基建投资情况

目前基础设施过剩的程度

关键服务中断的潜在成本

这些因素将支撑能力管理投资的潜在回报,并有助于确定您企业所应该追求的解决方案类型。

本文转自d1net(转载)

相关文章
|
7月前
|
机器学习/深度学习 数据挖掘 物联网
【专栏】机器学习如何通过预测性维护、负载预测、动态冷却管理和能源效率优化提升数据中心能效
【4月更文挑战第27天】随着信息技术发展,数据中心能耗问题日益突出,占全球电力消耗一定比例。为提高能效,业界探索利用机器学习进行优化。本文讨论了机器学习如何通过预测性维护、负载预测、动态冷却管理和能源效率优化提升数据中心能效。然而,数据质量、模型解释性和规模化扩展是当前挑战。未来,随着技术进步和物联网发展,数据中心能效管理将更智能自动化,机器学习将在实现绿色高效发展中发挥关键作用。
133 5
|
7月前
|
机器学习/深度学习 运维 算法
利用机器学习优化数据中心的能效管理
【4月更文挑战第30天】在数据中心的运营成本中,能源消耗占据了一个显著的比例。随着能源价格的上升和环境保护意识的增强,如何降低能源消耗成为数据中心管理者们面临的一个重要挑战。本文探讨了一种基于机器学习的方法来优化数据中心的能效管理,通过分析历史数据和实时监测数据,动态调整资源分配和冷却策略,以实现能源消耗的最小化。
|
7月前
|
机器学习/深度学习 资源调度 算法
利用机器学习优化数据中心的能效管理
【5月更文挑战第31天】 在数据中心管理和运营中,能效优化是降低运营成本和减少环境影响的关键。本文提出了一种基于机器学习的方法来动态调整数据中心的资源分配,旨在提高整体能源效率。该方法通过分析历史数据和实时负载信息,预测未来工作负载并相应地调整硬件配置。实验结果表明,与传统的静态管理策略相比,所提出的动态管理策略可以显著降低能耗,同时保持服务质量。
|
7月前
|
机器学习/深度学习 缓存 算法
深入理解操作系统的虚拟内存管理利用机器学习技术优化数据中心能效
【5月更文挑战第25天】 在现代计算机系统中,虚拟内存是允许用户程序逻辑地址空间与物理内存解耦的关键概念。它为每个进程提供了一个独立的、连续的地址空间,通过内存管理单元(MMU)硬件的支持,将程序使用的虚拟地址映射到实际的物理内存地址。这种机制不仅简化了程序的编写和内存的管理,还提供了保护机制,防止不同进程之间的相互干扰。本文将探讨虚拟内存的工作原理、分页系统的实现以及虚拟内存带来的性能影响,并讨论操作系统如何优化内存使用和管理。
|
7月前
|
机器学习/深度学习 存储 算法
利用机器学习优化数据中心的能效管理
【5月更文挑战第23天】在本文中,我们探讨了一种基于机器学习的方法来优化数据中心的能效管理。通过分析历史数据,我们的模型能够预测数据中心的能源需求,并据此调整能源分配,以达到节能和提高能效的目标。这种方法不仅能够降低运营成本,还能减少对环境的影响。
|
7月前
|
机器学习/深度学习 数据采集 算法
利用机器学习优化数据中心的能耗管理
在数据中心管理和运营领域,能耗优化是提高经济效益和环境可持续性的关键。本文提出了一种基于机器学习的方法来优化数据中心的能源消耗,通过实时监控与智能调节系统参数以降低总体能耗。研究采用多种算法对比分析,包括监督式学习、非监督式学习以及强化学习,并在此基础上设计出一套综合策略。该策略不仅提升了能效比(PUE),还保证了系统的高可靠性和性能稳定性。文章的结构首先介绍数据中心能耗管理的重要性,然后详细阐述所提出的机器学习模型及其实现过程,最后通过实验结果验证了方法的有效性。
|
7月前
|
机器学习/深度学习 存储 大数据
利用机器学习优化数据中心的能效管理
【2月更文挑战第17天】 在数据中心的运营过程中,能效管理是维持可持续性和成本效益的关键。本文探讨了一种基于机器学习的方法来优化数据中心的能源使用效率。通过分析历史能耗数据和实时工作负载信息,构建了一个预测模型来指导冷却系统的动态调整,以减少不必要的能源消耗。实验结果表明,该方法能够有效降低能耗,同时保证数据中心的性能和可靠性。
75 2
|
存储 监控 网络协议
「数据中心」数据中心脊页架构:数据中心结构管理、自动化和总结
「数据中心」数据中心脊页架构:数据中心结构管理、自动化和总结
|
调度 数据中心
UPS智能在线模式:数据中心的一场节电革命
UPS智能在线模式:数据中心的一场节电革命
|
运维 调度 数据中心
如何推进IT运维数据中心问题管理
在数据中心的管理中,问题管理通常因为没有事件管理、变更管理那么直接影响服务的可用性而被忽视,使得遗留下来的问题没有被及时解决,也会导致事件的重复发生,从而降低系统和服务的整体可用性
209 0
如何推进IT运维数据中心问题管理
下一篇
DataWorks