成功的虚拟化系统是如何炼成的?实施及运维

简介:






作者:范军 (Frank Fan)

新浪微博:frankfan7

如果把虚拟化系统比作一座房子,好的设计就使建筑框架图,实施就要一砖一瓦的把房子搭起来。缺工减料,延误工期的后果不言自明。而运维就是对房子的维护,改建和保养了。

本文设计篇我们讲了设计对于一个成功虚拟化系统的重要性,这只是一个好的开头。行百里路者半九十,实施及运维也要给力才成。

   实施

架构师们,如果你真的在意你精心设计的方案,那么在实施过程中也不能松懈啊。我曾经也作过项目经理,这段经历对我在架构设计中帮助很大。架构师是项目经理的军师,你要帮助设计高效合理项目计划,并且能预计并控制风险。比如我们常见的物理机虚拟化的项目中,要考虑分阶段进行。把重要的关键服务器放在后面得到阶段,利用前期积累的经验就能将风险降低。

实施中常见的问题有:

人员浪费:有的人忙死,有的人闲死。因为项目任务的安排不合理,或者依赖条件不满足,有的人无法开始执行任务。

建议:架构师对人员的能力水平和需要的技能要有数,合理安排人员,及时向项目经理提出建议增加或者减少人员。密切关注假设条件和依赖条件是否变化,并及时应对。

 额外工作量:就算诸葛亮也有算不到的时候,再有经验的架构师也无法预计到实施中可能会遇到的特殊情况造成工作量超出预算。

建议: 可以从两个方面来着手:  在估计工作量是要有应急措施并且预留资金,以备不时之需。   工作量增加是由什么因素造成的? 是由于当初的假设条件不成立,还是新增的需求,还是技术问题没有考虑到等等。如果在合同中对假设和需求有清晰的说明,就不至于被动。

测试不完善或者过度测试:

测试很重要,却往往容易被忽视。有时会因为时间压力跳过一些重要测试,有时也因为过度模式化,而在测试上花费太多人力及时间。

建议:测试人员提前进入状态,制定精简并充分的测试计划。尽可能把大的测试任务分离成小的测试任务,缩短测试及反馈周期,能及时修正发现错误。避免在后期才发现重大问题,造成时间的延误和前期工作的浪费。虽然敏捷多应用于软件开发,不妨在虚拟化项目中也考虑哪些测试可以借鉴敏捷的理念。

实施与设计不符

参与实施的人员可能很多,互相的合作有可能不足,也有实施人员的经验和能力的限制,没能很好了解设计意图。

建议:一个完善的可执行的安装文档可以避免这个问题。文档中特别表明针对需求所定制的部分,以及配置的细节、参数等等。

   运维

项目实施完是不是就完事大吉了?庆功酒喝完后还得想想怎么能顺利得移交项目,并且帮助支持部门把这个系统管好。

一个好的系统,如果没有完善的管理,没过多久就会漏洞百出。运维指导应该规范运维中的关键几个方面:

权责分明  (Role & Responsibilities)

别随便给管理员权限,别以为这是信任同事,你可能好心办坏事,权限意味着责任。知识能力不具备的人得到过多的权限,也多了犯错误的机会,反受其害。

谁有什么权限,应该一清二楚,并尽量流程化,规范化。人员入职离职,权限需要及时更改。

权责分明也降低了由于人为失误造成的风险。

 容量管理(Capacity  Management

人们往往对虚拟化平台有个误区,认为不需要额外购买硬件,有需求就建虚拟机呗。常常见到大量的虚拟机没能很好利用,过度浪费服务器资源,造成整个平台性能下降。

建议: 规范虚拟机的配置,比如设定初级(1vCPU 4G)、中级(1vCPU 8G)和高级 2vCP 16G)供用户选择。缺省1vCPU,用户要求多vCPU时要具体问题具体分析。是否应用支持多CPU,是否该服务器能有效支持。在CPU调度时,有些情况多CPU VM无法快速获得申请的资源,等待时间延长,性能反而更差。

vCenter  Operation Suite 可以很好的帮助容量管理。

问题管理 incident/problem  Management

小问题如果不及时补救会成大患。有时迫于时间压力,我们会采取一些措施暂时解决表象问题,可是没有能分析根本原因。这样你就会成为一个救火队员,每天忙得要死,还没人领情。有VM出现性能问题,vMotion到另外主机暂时缓解。可有可能一段时间后会拖垮那台主机。

变更管理 (Change Management)

因为变更失误造成灾难性的事件屡见不鲜,对于运行关键业务的虚拟化平台,变更管理必不可少。

运维人员是要充分理解架构设计原意的。否则开始平常的改动可能和原来的设计冲突。比如管理员添加了备份Port  Group,  和工作网络的Port Group共享一个上行物理网卡。 一到备份任务运行的时候,就会发现虚拟机上的应用程序极慢。因为备份抢占了网络带宽。

在存储管理员更改存储设备时,虚拟化管理员要评估对平台带来的影响。

自动化 Automation

有些系统管理员每天埋没于很多重复的任务之中,比如创建新用户,建虚拟机,出报告等等,其实很多都可以自动化的。即减少了人为错误,也能有时间花在更有意义的工作上。何乐而不为?

造就一个成功的虚拟化平台,靠的是项目经理,架构师和整个团队的不懈努力。 只要你能考虑到设计,实施及运维中的重要方面,成功还会远么?

如果您希望更多了解虚拟化设计,大中国区首场攀顶云端尖峰认证,备战VCDX专题讲座” 将在2013320VMware合作伙伴大会上隆重推出,地点:北京JW万豪酒店。 届时张纲、@FrediYao和我@frankfan7将面对面和您一起探讨.











本文转自frankfan751CTO博客,原文链接:http://blog.51cto.com/frankfan/1157145 ,如需转载请自行联系原作者




相关文章
|
19天前
|
运维 Linux Apache
Puppet 作为一款强大的自动化运维工具,被广泛应用于配置管理领域。通过定义资源的状态和关系,Puppet 能够确保系统始终处于期望的配置状态。
Puppet 作为一款强大的自动化运维工具,被广泛应用于配置管理领域。通过定义资源的状态和关系,Puppet 能够确保系统始终处于期望的配置状态。
40 3
|
28天前
|
运维 监控 安全
高效运维管理:提升系统稳定性的策略与实践
【10月更文挑战第2天】 在当今数字化时代,运维管理成为企业IT部门的重要任务。本文将探讨如何通过高效的运维管理策略和最佳实践,提升系统的稳定性,确保业务持续平稳运行。通过分析常见问题、预防措施以及应对策略,我们将揭示高效运维的关键要素,助您打造一个可靠的IT环境。
|
2天前
|
运维 监控 中间件
数据中心运维监控系统产品价值与优势
华汇数据运维监控系统面向IT基础架构及IT支撑平台的监控和运维管理,包含监测、分析、展现和告警。监控范围涵盖了网络设备、主机系统、数据库、中间件和应用软件等。
16 4
|
16天前
|
运维 监控 安全
高效运维管理:提升系统稳定性的策略与实践
【10月更文挑战第13天】 本文探讨了高效运维管理的关键策略和实践,旨在帮助运维团队提升系统的稳定性。通过分析常见问题,提出具体的解决方案,包括监控与告警、自动化工具的应用、故障排查与恢复、性能优化以及安全防护等方面。通过这些策略和实践,可以帮助企业构建一个稳定、可靠且高效的IT系统。
59 1
|
26天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。
|
28天前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
1月前
|
运维 监控 大数据
高效运维管理:提升系统稳定性的策略与实践
在当今信息技术飞速发展的时代,运维管理作为保障系统稳定运行的关键环节,其重要性不言而喻。本文将深入探讨如何通过优化运维流程、引入自动化工具和建立完善的监控体系等策略,来有效提升系统的稳定性。同时,结合具体实践案例,分析这些策略在实际工作中的应用效果,为运维人员提供有益的参考和启示。
70 6
|
1月前
|
运维 负载均衡 监控
提升系统性能:高效运维的秘密武器——负载均衡技术
在当今数字化时代,系统的高可用性和高性能成为各类企业和组织追求的目标。本文旨在探讨负载均衡技术在运维工作中的关键作用,通过深入分析其原理、类型及实际应用案例,揭示如何利用这项技术优化资源分配,提高系统的响应速度和可靠性,确保用户体验的稳定与流畅。无论是面对突如其来的高流量冲击,还是日常的运维管理,负载均衡都展现出了不可或缺的重要性,成为现代IT架构中的基石之一。
45 4
|
2月前
|
运维 监控 安全
高效运维管理:提升系统可靠性的策略与实践
本文将深入探讨高效运维管理的关键策略和实践,旨在帮助运维团队提高系统的可靠性、可用性和稳定性。通过分析常见的运维挑战,提出相应的解决方案,并结合实际案例进行说明,为读者提供一套行之有效的运维管理指南。无论是新手还是经验丰富的运维工程师,都能从中获得有价值的见解和实用技巧。
|
2月前
|
运维 监控 负载均衡
高效运维管理:如何通过自动化提升系统可靠性
本文探讨了如何通过自动化提升系统可靠性,包括自动化监控、自动化部署、自动化测试和自动化故障恢复四个方面。通过实际案例展示了自动化在运维中的应用效果,强调了团队建设与培训的重要性以及持续改进与优化的策略。
26 0