如何做好数据中心里大本大宗的割接工作

简介:

割接是对正在使用的线路、设备进行操作,将会直接影响到上面承载的业务。割接是数据中心工作的重要部分,由于涉及到业务变更、软件升级、设备上下线等操作,可能会对现有业务造成影响,甚至中断,所以割接也是数据中心工作中最具挑战的部分。一次割接任务完成的是否漂亮,对数据中心未来的运营效果有很大影响,一般在割接之前都要做缜密计划,确保割接顺利。我们知道,数据中心里的故障80%都是人为失误造成的,而割接必然涉及到人为操作,出错是必然的,哪个数据中心割接没出过几次小问题,只要能够及时补救,一般不会产生过多负面影响,这缘于数据中心内部是一个非常庞大的信息系统,成千上万台协同运转,哪里配合不好,都可能影响业务,达不到割接之前制定预期的效果。尤其是现在各种新技术不断在数据中心里落地,虽然提升了数据中心的运行效率,减少了人力成本,可一旦出了问题,排查起来非常困难,就算是顶尖的技术专家也难于对整个数据中心的系统技术都掌握,这都增加了割接难度,使得每次割接都像过鬼门关一样。那么,我们来看看数据中心业务割接有哪些需要注意的地方,避免犯错误,从而提升业务割接的成功率。

首先,要对割接方案进行评估,多大风险,尤其是对正在运行业务的系统是否有影响。根据评估,确定可能影响业务中断的时长,然后提前向数据中心用户发公告,对于重要大客户要单独沟通,得到大客户许可之后,再发布割接公告,公告里明确说明本次割接的目的,比如为了提升客户访问数据中心的速度、业务系统软件升级、设备更换等等,让客户一看就知道割接做哪些事情。公告里还要讲明割接操作开始和结束时间(基本都是夜里两点到五点的时间段),期间可能引起的业务中断时长,具体访问哪些业务会有影响。数据中心在割接之前,有主动告知的义务,让客户提前有准备,做好各种数据备份。

其次,要制定详细的割接方案。包括割接的整体方案介绍、详细的操作技术方案、回退方案、人力部署和分工安排、预期效果、割接过程中的信息采集和数据监控等等。所以割接前,需要做大量的准备工作,准备得越充分,割接时越顺利,也许割接时就几分钟甚至只是一个设备操作命令,但准备工作也许要花费几天甚至数月来准备,这就像嫦娥奔月工程,从嫦娥发射到飞到月球轨道,只有两三天时间,但我们却需要花费一两年的时间来设计和准备工作,前期工作是海量的。要考虑到割接的过程中可能出现异常情况,针对出现不同情况有相应应对的方案,如果在割接前没有考虑清楚,一旦出现预知之外的情况,将没有应对方案,在短时间内很难想到很好的解决方案,这时如果处理经验不足,往往就是执行回退方案,割接出现失败。还有,割接的所有方案和技术操作都要符合数据中心规章制度和相关标准,不允许违规操作。比如:在重大节日封网期间操作,将高级别的设备操作权限交由低级别工程师,有低级别工程师代替操作,割接时要严格按照预定步骤,有条不紊地执行。对于特别重大的割接,还要搭建模拟环境,进行演练,有条件的话还需要在数据中心现网的业务环境中进行割接预演,根据模拟演练的情况,对割接方案进行完善,对不足的地方进行改进。

第三,要做好数据业务备份。不少数据中心的业务是不允许中断的,数据更是不同于出现错误或者丢失的情况。这时就要启动冗余备份方案,比如可以在割接前将业务平滑切换到备份系统中,割接完再将业务切换回来,保持业务不受影响,有时还可以将数据备份起来,让业务停转,割接完成后,再启动业务运转,继续使用备份数据,千万不可出现无备份,业务裸奔的危险情况。最近,广西移动在进行扩容割接时,就出现了误操作导致用户数据丢失的故障,影响了几十万用户,十几个小时手机无法通话,这就是一例明显割接的准备工作不足,数据备份没有做好的例子。无论在任何情况下,数据是数据中心最宝贵的资产,其中有太多千万用户账户信息,一旦出现丢失或者错误,造成的影响都很恶劣,这比业务一时无法访问还严重,就好比我们正在用电脑写文章,突然电脑断电,之前辛苦写的文章因没保存全丢了一样,害的自己还得重新写,浪费不少时间,这比电脑断电但之前写的文章还在要严重地多,这样我大不了等来电时继续写就行了。

最后,要做好监控和总结。因为割接几乎都在后半夜进行,这时数据中心业务量最低,此时割接完可能看不出业务状态,需要观察一两日业务的运行状态,直到确认完全没有问题割接执行部分才算基本结束。接下来就是要对这次的割接工作进行总结。数据中心里的割接工作是比较频繁的,有的数据中心甚至天天晚上都有割接安排。每次割接完后,都要针对割接过程中出现的问题进行分析,及时改进,并在下一次割接中避免。如果割接失败,更是要总结失败原因,对整个割接的过程进行详细分析,调整后面的割接方案,避免同样的错不犯第二次。除了对发现的问题及时改进,也要总结经验,将割接的过程中所见所得记录下来,这些割接的经验可以保留下来,供其它人员在割接时学习使用,从而提升整个数据中心运维人员的技能水平。往往在这种割接业务的关键工作中,才是最锻炼人的,也是很好的学习真本领的机会。
本文转自d1net(原创)

相关文章
|
安全 测试技术 网络架构
【专栏】编写网络设备割接方案的七个步骤,包括明确割接目标、收集信息、制定计划、设计流程、风险评估、准备测试环境和编写文档。
【4月更文挑战第28天】本文介绍了编写网络设备割接方案的七个步骤,包括明确割接目标、收集信息、制定计划、设计流程、风险评估、准备测试环境和编写文档。通过实际案例分析,展示了如何成功完成割接,确保业务连续性和稳定性。遵循这些步骤,可提高割接成功率,为公司的网络性能和安全提供保障。
1425 0
|
6月前
|
安全 算法 中间件
OASA 厂商三未信安完成与 Anolis OS 及其衍生版适配,密码卡性能与稳定性获验证
验证了 Anolis OS 能够满足用户对于数据保护和隐私安全的高标准要求,可以为广大用户提供更可靠的数据保护。
|
11月前
|
网络架构
|
Python
Python 中 help() 和 dir() 函数的用法
【8月更文挑战第29天】
259 5
|
弹性计算 固态存储 ice
阿里云服务器2核16G、4核32G、8核64G配置不同ECS实例规格收费标准和CPU性能差异
2024年阿里云提供2核16G、4核32G及8核64G等多种服务器配置,用户可根据需求选择不同实例规格如内存型r8i、通用算力型u1等。以华北2(北京)为例,2核16G月费从286.2至385.99元不等;4核32G为572.4至771.97元;8核64G则在1144.8至1543.94元区间。公网带宽与系统盘(如ESSD云盘)亦有多样化选择与价格方案。长期租赁可享折扣,具体价格请访问阿里云官网确认。
486 7
|
jenkins 持续交付 网络安全
利用 Jenkins 实现持续集成与持续部署-代码拉取终端的配置
安装Git、配置用户信息、生成SSH密钥以及在Gitee上创建项目仓库等。
235 0
|
数据可视化
R语言检验独立性:卡方检验(Chi-square test)和费舍尔Fisher精确检验分析案例报告
R语言检验独立性:卡方检验(Chi-square test)和费舍尔Fisher精确检验分析案例报告
|
存储 运维 Java
nacos常见问题之nacos提示ack server push request如何解决
Nacos是阿里云开源的服务发现和配置管理平台,用于构建动态微服务应用架构;本汇总针对Nacos在实际应用中用户常遇到的问题进行了归纳和解答,旨在帮助开发者和运维人员高效解决使用Nacos时的各类疑难杂症。
|
云安全 域名解析 SQL
什么是云盾Web应用防火墙?阿里云服务器如何接入云盾Web应用防火墙?
本文介绍了阿里云 云盾Web应用防火墙是什么以及云服务器如何接入云盾Web应用防火墙。
1269 0
什么是云盾Web应用防火墙?阿里云服务器如何接入云盾Web应用防火墙?
|
Kubernetes Cloud Native 容灾
阿里云新版ACE全球通关第一人考试经历回顾
2022.3月底阿里云针对老版ACE进行了改版,针对云计算技术的发展趋势,新增了云原生等热门技术,同时新版ACE认证新增了实验和面试,全面考查考生的动手能力和理论知识结构,含金量大大提升。本人于2022.7.25号通过新版ACE实验,并于8.22号参加并通过了新版ACE第一场面试考试,有幸成为新版ACE全球通关第一人。现在本人备考学习新版ACE认证的过程记录成文,跟大家分享,期待越来越多的云计算技术爱好者学习和报考新版ACE,拿到属于自己的全球编号。
3579 19
阿里云新版ACE全球通关第一人考试经历回顾