传统企业IT时代,企业IT运维管理服务遵循基于国际ITIL标准的ITSM服务管理方法论及相关工具,IBM、HP、BMC和CA是ITSM“四大天王”。随着云计算对于企业IT进行了重新洗牌,以DevOps为代表的敏态IT对于以稳态IT为代表的ITSM方法论及其产业形成了巨大的冲击。作为IT服务管理的龙头企业,IBM在带领企业向云转型的过程中,也加码了IT运维管理向混合云与IT环境的转型。
(IBM副总裁、技术支持服务部(TSS)大中华区总经理潘军)
“今天,企业面临越来越多的挑战,既要保证安全生产,又要给业务提供更大的灵活性。为了满足这些需求,企业积极采用AI、混合云的新技术,这让其IT架构和环境也变得日益复杂和多元”,IBM副总裁、技术支持服务部(TSS)大中华区总经理潘军表示,“IBM能为企业提供集成多品牌、一站式、高品质服务,帮助企业充分利用现有投资,极大程度地保障业务连续性,也为其业务创新提供强有力的支持。”
基于新的运维方法论和智能运维平台,IBM为众多金融、通信、制造行业客户提供多品牌一体化运维服务、开源软件支持服务与开源治理咨询服务、机房巡检机器人方案,以及运用AR技术提供远程服务等,创造了大量混合云运维管理的成功案例。特别是在疫情期间,IBM支持工程师克服了种种困难,保障了企业业务的连续性,坚定了企业加速向云转型的信心。
CSMO:混合云运维方法论
异常复杂的混合云环境为企业IT运维带来了极大的挑战,而在数字化转型下的企业业务向在线模式转型,需要24小时不间断保障业务在线运营,同时还要保障业务APP的响应时间必须达到用户体验要求——业务APP一旦延时响应用户的点击和业务请求,这就意味着新型“宕机”——用户很有可能因为几秒的延时而停止购买甚至转向其它品牌。IBM在很早期就意识到了数字化时代带给企业IT运维的新挑战,并提出了新的方法论:CSMO。
(CSMO的主要组成方法论,图片来源:IBM)
潘军介绍,IBM在云时代的新运维方法论叫做CSMO(Cloud Service Management and Operations),这个方法论有四个主要的来源:第一是ITIL特别是ITIL 4,ITIL4是国际IT服务标准在新时代的最新版本,也是面向敏态IT的全新版本,它在囊括了ITIL V3的特色基础上加入了对于DevOps等的支持;其次是敏态IT运维方法论SRE(Site Reliability Engineering,站点可靠性工程),这是互联网及公有云的运维服务方法论;第三是Infrastructure as a Code即将基础设施自动化过程、运维以及全球最佳实践和案例等进行整合;第四是加强了运维与开发的关联,将IT服务管理的组织、文化、流程与DevOps进行结合。
CSMO出现的背景是企业IT运维在DevOps时代需求下有了新的发展:之前的ITIL/ITSM侧重于软件应用发布后的运维,而DevOps要求在DevOps全生命周期都要融入运维;之前ITIL/ITSM下的运维团队经常与开发团队相隔离而独立工作,而DevOps要求开发团队也将运维工作视为自己工作的一部分;之前的ITIL/ITSM主要为流程驱动,而DevOps则强烈依赖于在所有阶段都嵌入自动化的能力。IBM为CSMO提供了实践指南,这是一套用于设计、实施以及持续改进企业运维管理流程的方法组合,包括各类角色分工、流程及流程定义以及考核、实现和支持工具等。
ChatOps是CSMO的一个特色。ChatOps将开发工具、运维工具和相关流程都集成到一个协同平台上,不同团队可以高效、轻松地管理工作流。ChatOps按时间线保持了团队沟通的信息流,提供了团队沟通的记录并将所有人都更新到最新的状态,以避免信息的重复。ChatOps可优化运维团队与开发团队的协同,提升每种角色的工作透明度,将相关信息推送给解决问题的工程师,而无需工程师耗费时间和精力到处找相关信息。ChatOps还将服务管理与DevOps工具都集成到Chat协同平台上,这样团队就无需来回切换不同的场景和工具。ChatOps还提供了聊天机器人,可回答各类问题以及远程执行指令。
潘军强调,今天新的IBM运维方法论,从方法、工具、流程等方面结合传统运维和混合云的要求,是与时俱进的IT运维服务方法论。而IBM TSS就是在该方法论的指导下,用工具和流程帮助客户在混合云和AI的环境中,更好地进行运维和服务保障。
AIOps:加码智能运维
在混合云环境中,传统的运维监控方式正在发生巨变。由于缺乏有效的系统洞察,运维团队很难在运维事件发生之前进行预测或获得告警。而采用AI技术的IT运维,则从运维工单、指标、日志等资源中获得数据,再运用深度学习等AI技术对数据进行分析,从而获得对于系统的洞察,进而用于运维流程中,为运维团队提供专业指导。
潘军表示,AIOps即智能化运维,这是一个旅程,横向是从流程化、集中式的ITIL向分布式DevOps的转变,纵向是从传统运维文化角度进行敏捷转型。该转型分为四个阶段:首先是标准化,标准化是实现运维自动化的前提;其次是响应,强调实时运维数据分析与洞察;第三是预测,即在实时数据分析的基础上,实现动态洞察和更新分析;第四是主动预防,即进一步实现事故预测与告警,进行主动式预防。
(AIOps四阶段,图片来源:IBM)
IBM提供了AIOps实践指南,将IBM运维团队运用AI技术于运维流程的实践进行了总结,包括:收集运维数据,监控应用并收集数据以检测性能和故障等;组织运维数据,用大数据工具和相关概念对收集的运维数据进行治理,将这些数据组成不同的逻辑组或数据集,以便于后续AI模型分析;采用数据模型对数据进行分析,对运维数据集选用合适的AI模型,包括深度学习和机器学习等,从而获得最准确的洞察及预测;将AI扩展到运维流程中,使用协同工具或数据面板发布AI模型分析的结果等。
IBM TSS借助IBM Support Insight、Watson AIOps、Ansible等工具,帮助企业实现从被动到主动、从手工到自动、从经验到数据驱动的运维转变,共建主动性、预测性和深度洞察智能运维体系。TSS也改变了以往的工作模式,以各种创新的方式为客户提供更加智能的服务,比如通过AR眼镜看到用户设备信息,进行远程巡检、故障诊断和修复,甚至通过巡检机器人完成工作。同时,IBM TSS团队可以通过巡检机器人收集到的机房环境信息,例如空调出风量、温度等指标,反馈给管理系统,为客户机房节能减排提供有力的数据支撑。
例如,IBM TSS 为某金融客户提供机房巡检机器人方案,包括微环境管理、节能管理、日常巡检、随工检查、资产容量管理等。不仅提升了效率,在疫情等突发事件的时候发挥了巨大的作用,也为数据中心的运维工作提供了有力支撑。通过机器人持续的数据收集对整个数据中心的能耗、容量、利用率有了更深入的洞察,为后续节能减排、优化基础设施奠定了基础。
多品牌统一运维、解决“混合”难题
在企业向混合云转型的过程中,出现了传统IT与混合多云交杂的新环境。企业不仅需要运维管理主机、小型机、存储与网络等传统IT资产,还要管理DevOps环境中出现的各类新兴开源软件,此外还有日益严峻的安全挑战和监管要求等。为了帮助企业更好的应对分散、复杂的多云环境,高效利用资源,高品质地保障业务连续性,IBM TSS为企业提供了集成、全生命周期、一站式多品牌运维服务,为企业向混合云转型“托底”。
IBM多品牌统一运维服务同时支持IBM主机、Power和存储设备和软件以及非IBM第三方商业软硬件,并对超过245种开源软件提供企业级支持,包括开源数据库、开源中间件、应用运行环境、操作系统和各类平台组件等。IBM对全球266家采用该服务的客户进行了调研,结果显示:在三年内IBM为这些组织平均带来了310万美元的净收益;通过简化与 IBM 的硬件和软件支持合同,IT支持支出减少25%。
例如,IBM TSS 为某大型银行全球数据中心提供多品牌一体化运维服务,通过简化与统一各种硬件和软件支持合同,为其减少了25%的IT维护和支持开支;通过使用 IBM多品牌一体化运维,减少了20%与IT管理相关的任务所耗费的时间;通过与一家供应商整合 IT 支持,减少了20%用于供应商关系管理的时间。同时,这些服务也创造了很多非量化收益,包括延长硬件的使用寿命,节省或推迟了资本支出,减少平均修复时间(MTTR),避免了大量的事故或停机,提高可用性。
在开源支持方面,作为主流开源组织的顶级赞助商和贡献者,IBM一直与开源生态系统有深入的合作关系,TSS早在2020年开始为客户提供从咨询治理到托底支持的全方位开源解决方案服务,其服务保障与服务质量几乎等同于商业软件的服务级别。在中国市场,2021年初,IBM进入信通院第一批开源供应商名录,7月成为信通院认证的4家白金合作伙伴之一,两年的时间已经为各行各业的客户提供了开源服务。
(IBM支持工程师在疫情期间仍坚持工作)
目前,IBM多品牌统一运维服务覆盖了98%的中国主要城市,在中国有约 1000名具备原厂工程师认证的IT工程师在一线为企业提供7*24小时服务。值得一提的是,在疫情期间IBM支持工程师仍保证了“7*24小时服务”的承诺。例如,上海刚刚爆发疫情苗头的3月底,TSS支持大银行和铁路等重要行业的十多位工程师扛起行军床、背上方便面,一头扎进客户数据中心一线,在两个月的时间里为上海的客户进行了130多次紧急维修;而在去年7月,郑州遭遇特大暴雨,大水还没消退,TSS一位工程师便使用冲锋舟将客户需要的备件及时送到现场,另一位工程师则在高架桥上徒步6公里到达客户现场……
总结而言:疫情加速了企业向云转型的进程,而混合云将是企业IT的新形态。基于云的数字化业务对于企业IT支持运维服务提出了全新的挑战,也对IT支持运维服务商提出了全新要求。IBM TSS在混合云服务管理与运维方法论和AIOps智能运维平台的支撑下,以多品牌一体化运维服务、开源软件支持服务与开源治理咨询服务等,为混合云的“长治久安”打底,创造了混合云服务管理与运维的新样板。