成功的虚拟化系统是如何炼成的?实施及运维

简介:






作者:范军 (Frank Fan)

新浪微博:frankfan7

如果把虚拟化系统比作一座房子,好的设计就使建筑框架图,实施就要一砖一瓦的把房子搭起来。缺工减料,延误工期的后果不言自明。而运维就是对房子的维护,改建和保养了。

本文设计篇我们讲了设计对于一个成功虚拟化系统的重要性,这只是一个好的开头。行百里路者半九十,实施及运维也要给力才成。

   实施

架构师们,如果你真的在意你精心设计的方案,那么在实施过程中也不能松懈啊。我曾经也作过项目经理,这段经历对我在架构设计中帮助很大。架构师是项目经理的军师,你要帮助设计高效合理项目计划,并且能预计并控制风险。比如我们常见的物理机虚拟化的项目中,要考虑分阶段进行。把重要的关键服务器放在后面得到阶段,利用前期积累的经验就能将风险降低。

实施中常见的问题有:

人员浪费:有的人忙死,有的人闲死。因为项目任务的安排不合理,或者依赖条件不满足,有的人无法开始执行任务。

建议:架构师对人员的能力水平和需要的技能要有数,合理安排人员,及时向项目经理提出建议增加或者减少人员。密切关注假设条件和依赖条件是否变化,并及时应对。

 额外工作量:就算诸葛亮也有算不到的时候,再有经验的架构师也无法预计到实施中可能会遇到的特殊情况造成工作量超出预算。

建议: 可以从两个方面来着手:  在估计工作量是要有应急措施并且预留资金,以备不时之需。   工作量增加是由什么因素造成的? 是由于当初的假设条件不成立,还是新增的需求,还是技术问题没有考虑到等等。如果在合同中对假设和需求有清晰的说明,就不至于被动。

测试不完善或者过度测试:

测试很重要,却往往容易被忽视。有时会因为时间压力跳过一些重要测试,有时也因为过度模式化,而在测试上花费太多人力及时间。

建议:测试人员提前进入状态,制定精简并充分的测试计划。尽可能把大的测试任务分离成小的测试任务,缩短测试及反馈周期,能及时修正发现错误。避免在后期才发现重大问题,造成时间的延误和前期工作的浪费。虽然敏捷多应用于软件开发,不妨在虚拟化项目中也考虑哪些测试可以借鉴敏捷的理念。

实施与设计不符

参与实施的人员可能很多,互相的合作有可能不足,也有实施人员的经验和能力的限制,没能很好了解设计意图。

建议:一个完善的可执行的安装文档可以避免这个问题。文档中特别表明针对需求所定制的部分,以及配置的细节、参数等等。

   运维

项目实施完是不是就完事大吉了?庆功酒喝完后还得想想怎么能顺利得移交项目,并且帮助支持部门把这个系统管好。

一个好的系统,如果没有完善的管理,没过多久就会漏洞百出。运维指导应该规范运维中的关键几个方面:

权责分明  (Role & Responsibilities)

别随便给管理员权限,别以为这是信任同事,你可能好心办坏事,权限意味着责任。知识能力不具备的人得到过多的权限,也多了犯错误的机会,反受其害。

谁有什么权限,应该一清二楚,并尽量流程化,规范化。人员入职离职,权限需要及时更改。

权责分明也降低了由于人为失误造成的风险。

 容量管理(Capacity  Management

人们往往对虚拟化平台有个误区,认为不需要额外购买硬件,有需求就建虚拟机呗。常常见到大量的虚拟机没能很好利用,过度浪费服务器资源,造成整个平台性能下降。

建议: 规范虚拟机的配置,比如设定初级(1vCPU 4G)、中级(1vCPU 8G)和高级 2vCP 16G)供用户选择。缺省1vCPU,用户要求多vCPU时要具体问题具体分析。是否应用支持多CPU,是否该服务器能有效支持。在CPU调度时,有些情况多CPU VM无法快速获得申请的资源,等待时间延长,性能反而更差。

vCenter  Operation Suite 可以很好的帮助容量管理。

问题管理 incident/problem  Management

小问题如果不及时补救会成大患。有时迫于时间压力,我们会采取一些措施暂时解决表象问题,可是没有能分析根本原因。这样你就会成为一个救火队员,每天忙得要死,还没人领情。有VM出现性能问题,vMotion到另外主机暂时缓解。可有可能一段时间后会拖垮那台主机。

变更管理 (Change Management)

因为变更失误造成灾难性的事件屡见不鲜,对于运行关键业务的虚拟化平台,变更管理必不可少。

运维人员是要充分理解架构设计原意的。否则开始平常的改动可能和原来的设计冲突。比如管理员添加了备份Port  Group,  和工作网络的Port Group共享一个上行物理网卡。 一到备份任务运行的时候,就会发现虚拟机上的应用程序极慢。因为备份抢占了网络带宽。

在存储管理员更改存储设备时,虚拟化管理员要评估对平台带来的影响。

自动化 Automation

有些系统管理员每天埋没于很多重复的任务之中,比如创建新用户,建虚拟机,出报告等等,其实很多都可以自动化的。即减少了人为错误,也能有时间花在更有意义的工作上。何乐而不为?

造就一个成功的虚拟化平台,靠的是项目经理,架构师和整个团队的不懈努力。 只要你能考虑到设计,实施及运维中的重要方面,成功还会远么?

如果您希望更多了解虚拟化设计,大中国区首场攀顶云端尖峰认证,备战VCDX专题讲座” 将在2013320VMware合作伙伴大会上隆重推出,地点:北京JW万豪酒店。 届时张纲、@FrediYao和我@frankfan7将面对面和您一起探讨.











本文转自frankfan751CTO博客,原文链接:http://blog.51cto.com/frankfan/1157145 ,如需转载请自行联系原作者




相关文章
|
12天前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
1月前
|
传感器 人工智能 运维
AR智慧运维系统介绍
阿法龙XR云平台是一款面向工业领域的增强现实(AR)智能化平台,助力企业实现数字化转型。平台集成智能巡检工作流、远程协助、AI视频验收、人脸识别等功能模块,支持AR眼镜与移动终端,提供虚实融合的运维体验。具备高度定制化能力,适配多种工业场景,提升运维效率与智能化水平。
|
2月前
|
数据采集 运维 监控
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
107 0
|
3月前
|
人工智能 运维 监控
聚焦“AI+运维”深度融合,龙蜥系统运维联盟 MeetUp 圆满结束
现场 40 多位开发者进行了深入的技术交流,探索 AI 与运维深度融合的未来路径。
|
4月前
|
人工智能 运维 Prometheus
别等系统“炸了”才慌!聊聊AI搞运维故障检测的那些真香时刻
别等系统“炸了”才慌!聊聊AI搞运维故障检测的那些真香时刻
160 0
|
2月前
|
人工智能 运维 Prometheus
运维还要天天盯人值班?现代化运维就该让系统自己跑!
运维还要天天盯人值班?现代化运维就该让系统自己跑!
84 4
|
2月前
|
机器学习/深度学习 监控 安全
解密虚拟化弹性内存:五大核心技术与实施策略
本文深入解析虚拟化环境中实现内存弹性管理的五大核心技术与实施策略。内容涵盖内存架构演进、关键技术原理、性能优化方法及典型问题解决方案,助力提升虚拟机密度与资源利用率。
119 0
|
3月前
|
运维 Prometheus 监控
系统崩了怪运维?别闹了,你该问问有没有自动化!
系统崩了怪运维?别闹了,你该问问有没有自动化!
112 9
|
3月前
|
运维 监控 数据可视化
你以为运维只管系统稳定?不,数据玩得好还能指导老板赚钱!
你以为运维只管系统稳定?不,数据玩得好还能指导老板赚钱!
79 4
|
5月前
|
人工智能 运维 监控
HarmonyOS NEXT~鸿蒙系统运维:全面解析与最佳实践
本书《HarmonyOS NEXT~鸿蒙系统运维:全面解析与最佳实践》深入探讨了鸿蒙系统的运维管理。从架构特点到实际操作,涵盖分布式能力、性能优化、安全维护及故障排查。内容包括设备管理、系统监控、安全管理等核心任务,提供常见问题解决方案与工具推荐。面对未来超级终端和AI赋能的挑战,运维人员需不断学习,以充分发挥鸿蒙的分布式优势,为用户带来流畅体验。
254 8

热门文章

最新文章