优云软件叶帅:“互联网+”时代的云数据中心运维思辨(一)

简介: 2017中国开源产业峰会暨中国国际软件博览会分论坛,优云软件叶帅在开源云计算技术创新论坛发表了《“互联网+”时代的云数据中心运维思辨》的主题演讲,本文根据演讲内容整理而成。

2017中国开源产业峰会暨中国国际软件博览会分论坛,优云软件叶帅在开源云计算技术创新论坛发表了《“互联网+”时代的云数据中心运维思辨》的主题演讲,本文根据演讲内容整理而成。

我为大家分享一下目前运维的一些发展态势,刚才主持人提到在云环境下或者是“互联网+”的环境下如何更好地做好运维管理是整个行业里面每个人都在考虑的一个问题,那么接下来我就进入分享的议题,就是“互联网+”的时代下云数据中心运维管理方法论和思辨。

screenshot

首先,还是要先和大家分享一下我对整个行业发展的一个理解和认知,那么随着德国的工业4.0理念的推广,我们从最开始的1.0的蒸汽时代,到电子化时代,信息化时代,以及最后的这种智能化时代,这其中人类科学技术是得到了一个飞速蓬勃的发展。但是,IT参与其中是在工业3.0到工业4.0这个期间,就是整个生产经营信息化到后来的智能化这样的时间跨度里。那么从IT运维的生产信息化,到数字化,以及接下来的“互联网+”或者是移动互联网,甚至是未来整个智能化的趋势,我们企业面临的情况就是这样的一个浪潮,适应这样的洪流就必须要做出一些调整,那么这种调整就会带来一个什么样的问题呢?如果我们随波逐流地选择了一定的解决方案或者选择一定的思路,那么或多或少都会有这样或那样的不满足,尽管如此,整个项目的运维管理还是能够稳步的运行;但是如果选择大破大立推翻重做这样的一种方式,那我们不仅要付出更多的努力,还需要去承担比较多的资本风险、人员风险、时间风险等等。
所以IT运维在这样的一个从信息化到“互联网+”到未来的一个智能化,我们如何能够用更有效的时间、更有效的资源成本来去做好IT运维是现在要关注的一个事情。
那么在讲如何更好地做好IT运维之前,我们还是要为IT运维正名,在很长一段时间之内IT运维都被大家狭义的理解为就是做好对象之间的管理,对象之间的持续、可用、高效的交付就是IT运维。其实这个观点并没有错,因为我们刚才提过工业技术的发展中最为关注的是工具的演进和发展,那么IT管理之初,运维也是关注工具层面的内容,比方说我们最开始关注的网员管理,后续再关注相关的一些应用、数据等等,这些其实都是对工具的管理。但是随着工具的演进和完善,我们会发现工具之间的管理已经不能够满足我们对IT运维的一个完全覆盖和支持,因为工具的一个最大化之后,我们势必要考虑到两个问题,第一个问题是如何的做好平台化,如何做好工具之间的一个互动。第二个问题就是在做好平台化之后,IT运维是有人员参与的,有人员参与如何能够再去做好人与工具,人与人之间的互动。

screenshot

那么到这个阶段,IT运维就从最开始被认为是做好工具、对象的管理现在逐渐衍生成我们需要做好平台层面的建设,做好整个的人员之间或者是整个IT运维生态层面的管理,那这个就是我们要为IT运维正名的第一点,就是IT运维在当下一个数字化或者在未来智能化、“互联网+”的这样一个时代,不再单纯的是一个工具层面的管理,更多的是一个平台,更多的是一个整个顶层的,人员之间互动的一个管理。
那么第二个,我们既然已经提到了IT运维不是一个工具层面的管理,那么IT运维更多的是一种生态,更多是一种社会形态的管理,那么社会形态就带来两个问题,第一个问题是生产力,第二个问题是生产关系。那我们生产力和生产关系如何体现在我们当前的一个企业文化或者当前的企业现状里呢?在IT运维领域我们过去的生产力就是管理这些系统、对象以及采取何种技术和工具去管理,那么过去采用竖井式管理来持续的管着IT资源对象。现在随着云化或者容器化对象的一个引入,我们更多是要在做好基础的资源管理情况下,还要做好我们应用层面、数据层面的管理。那么生产力发生了改变,它也会带来生产关系和生产的一个最终结果的改变。

screenshot

生产关系在IT运维领域的最直接的一个投影就是我们IT运维的方法论。那么,我们最开始如何来做好稳定架构下IT管理?用ITIL个最佳实践去做稳定架构下的一个管理。那么现在云化、大数据等技术的引入,我们如何用ITIL这些概念去更好的适配、满足瞬时产生、敏捷产生、顺发资源产生的这样的一个IT管理诉求,那这其实就是我们当下ITIL在很多运维管理的企业或者是稳态企业不能够完全应对的一个现状。那么随之而来引入DevOps这样的一个伴随着研发、快速交付、持续交付的方法论。
在IT运维领域里面是不是说纯ITIL或者纯DevOps就能够完全地满足用户或者整个行业客户的需要呢?其实我们参与了很多项目建设,无论是企业,还是部委、军队等等,我们发现大多数情况下,并不是单一的方法论就能够满足用户的一个整体需求。尤其是现在既有稳态架构,也有云化、容器化的敏态架构下,更是需要一种双态的融合,那么这对于传统的稳态架构更多的是采取一种实施管控、高稳定的这种方式来做管理,那么对于云化、虚拟化、容器化的敏态架构下,我们更多采取的是一种持续交付、敏捷、快速等等这种方式来去帮助用户进行更多的一个持续的产出。

screenshot

那么如何能够帮助用户从传统的稳态架构衍生到敏态架构?如何帮助用户跨过这个鸿沟?这其实就是我们广通软件在做整个IT运维管理软件的时候特别加入了一些互联网思辨的一些内容,需要一个能够持续演进的一个IT运维方法论,广通软件提出了一个新的理念,这个理念就叫做软件定义运维。大家参加这个开源大会听了太多的软件定义,比方说软件定义网络、软件定义存储、软件定义计算资源、软件定义数据中心等等,那么什么又是软件定义运维呢?类似软件定义虚拟化一样,软件定义运维就是通过平台化、组件化的这种方式来重塑当前运维场景和需要,那么行业用户可以通过运维的这个诉求或者原始的这种需求,按序或者是按组件的方式,从运维基础平台中拿到所需要的数据,这个就是我们从整个概念上来重新打造、重新定义当前IT运维的一个方法,软件定义通过一个基础的运维管理平台,按照标签,这种标签包括场景化、标准化、自动化、可视化以及智能化来为用户提供他们所需要的一个内容。

screenshot

那么用户如何能通过软件应用来实现双态或者实现“互联网+”的云数据中心的运维管理呢?那么我们通过这么几个场景来为大家介绍一下,首先第一个就是大家非常熟悉的资产管理,就是所谓的集中的资产管理,那么在传统的稳态架构下,资产管理更多的是侧重IT资产的基础架构,以及种集中化的这种管理,通过人工的方式来去记录、审核每一项资产变更,为什么会有这样的一个情况呢?因为我们说传统的资源管理或传统的IT架构并不复杂,它有二三十台服务器或者有不到一百台服务器就是一个比较大的庞大系统了,那么现在的一个“互联网+”或者一个敏态架构下,我们发现这种资源的申请、变化都是非常频繁,那么我们更多的不再关注于传统架构,更多关注容器以及数据架构下,整个的IT资源是什么,IT架构是什么样的。
第二个就是通过划组的方式,通过成立工作组来去按组分拆整个资源管理的过程。以前,资源管理的任务是一两个人管二三十台服务器,那么如果一个系统有一千多台服务器,可能需要50多人去维护和管理,但是数据中心的人员配置可能还只有十个人或者还有几个人,那么他们就需要按照组的方式来进行一定的管理,这样就会产生另外一个问题,就是没有人如何能够去做好这些事情,这就需要通过一定的自动化手段,所以说对于现在敏态架构下,资源数量跟资源发生变化这个频度非常高,势必要通过一定的自动化的手段来去做资源的发现,所以说当前的敏态架构是关注数据应用、资源分组来去做好整体的资源导入,不仅有配置管理员,也有库管审计人员,最后配置管理能够完全应用出来,它会有两个方向,第一个方向配置管理一定要以一个资产或者一个资源分组的方式去进行一定的配置数据的输出;第二个它的输出形式不再是过去的一张表或者单纯的一些数据数据的这种矩阵,它更多的能够以一个平台化、数据的OpenAPI方式来为更多的业务系统持续不断推送数据,其他的系统也到我的配置管理里面去读数据,这是配置管理在双态环境下的一个场景。

screenshot

那么对于这个场景举一个例子,为大家介绍一下整个配置管理从数据从无到有到最后数据消费的一个全生命周期的过程。那么首先第一个,配置管理是由管理员去创建当前的面向于基础资源架构、应用容器、业务方面的这样一个IT资源模型,那么创建好模型之后,就根据模型的内容尽可能通过自动发现的手段,能够主动上报和进行全方位的一个扫描,之后就对网络进行一定的判断,比如说这两千多台服务器中有一千台是windows,有一千台是Linux,那么剩下的几百台或者是还有几个比较少属于一些小众的这个OS等等,那么当发现这些设备之后会对这个设备进行详细判断,就是发现哪些设备上有Oracle或者哪些设备制作了虚拟化,就会对它进行一个标识,标识之后就构建了一个基础的配置管理仓库,通过一个自动化或者流程或者通过其他的任务驱动来保证整个配置管理的数据持续不断的输出,那么数据消费,第一方面是面向于我们的一个实时监控,当产生了一个资源或者容器资源的时候,通过配置管理定位到这个资源为哪个系统提供了基础数据服务之后,那么对它进行一定的监控手段的配置;第二个是自动化的纳管,可以判断自动化应用以及自动化版本等等一些发布。第三是我们的一个合规性检查,第四是集群环境一致性检查。
那么合规性跟集群环境一致性检查更重要的是体现在我们接下来的一个例子,前不久发生了一个勒索病毒,在勒索病毒的这个全球性的攻击浪潮下,很多行业都不幸的被打的满目疮痍。那我们一起来看一下,比如说公安或者银行的一些移动终端,当勒索病毒产生之后,首先是要去判断哪些windows服务器容易被勒索病毒攻陷,比方说xp、window8等等,我们就会定义这些windows服务器都用了哪些应用谁在管,接下来会进行了一个广范围的撒网之后收集到了寥寥数张的一个excel残本,之后进行逐项清点,清点之后去关闭端口,然后进行程序的手动发布和整个应用的重新部署,这个是我们在公安经常面临的一个情况。
在勒索病毒发生的当天,公安人员成立一个专项的小组,花了三天时间抽调了20多个人,包括一些驻厂人员就把一百多台服务器进行逐项的排查,清点。那么在一个信息化相对来说比较好电网行业,它们就不一样了,通过整个配置管理进行全网范围的一个扫描,扫描到哪些设备是服务器以及哪些设备是windows服务器,那么这些windows服务器上面运行了哪些应用?这些应用为了哪些业务服务,定位到这些windows服务器之后,通过了这个人工或者自动的手段,快速的去把整体的服务进行一定的升级,最后保证我们整个的一个版本是可控的,所以当下一次安全生产危机到来的时候,在两个不同的部门,两个不同组织形态的这样的一个IT管理模式下,我们看传统的体系还是按部就班去执行,又是几天抽调了几十个人去做。而在一个相对信息化程度比较不错的企业,用几个人去做这样的一个快速高效的恢复,这其实是一个值得我们深思的事情,那以上主要就是面向于资源管理的介绍。

screenshot

第二个就是非常常见的,在IT运维领域最被大家广泛接受,其实就是监控告警。我们发现随着云化或者容器化对象的引入,监控告警也不简单,监控报警也跟过去有了不同,不同点在于过去的这种传统稳态架构下,对于整个监控报警或者整个关注对象来讲,它更多地关注物理设施,网络,基础架构以及应用,这个应用是以进程或者日志文件为单位的一个关注对象。采取一个分钟级的或者小时级的方式来去对这些对象进行维护,这是我们传统架构下比较常见的内容。比如说我们在09年做的中国联通的一个系统,他们就是通过这样的业务监测的方式来去模拟在线充值系统与一卡通系统,一分钟或者五分钟交易处理的一个情况,随着云环境或者容器计算资源变得更加复杂,敏态架构下关注的对象就不单单是稳态环境下的这些技术资源了。我们更关注的是云虚拟化容器对象应用服务调用的情况,甚至是我们最终的用户体验,以互联网公司业务特征为代表。
比如说我们在16年的12月,支付宝推出了一个圈子,推出以后产生了一些负面效应,很多用户在支付宝上进行操作或者留言的时候,支付宝就会及时发现和处理,这其实就是通过了整个用户体验,去进行详细的用户回溯,进行这种数据的一个处理和还原,这是我们整个的一个敏态环境下的一个监控管理范畴。

相关文章
|
28天前
|
运维 监控 持续交付
自动化运维在现代数据中心的应用与实践####
本文探讨了自动化运维技术在现代数据中心中的应用现状与实践案例,分析了其如何提升运维效率、降低成本并增强系统稳定性。通过具体实例,展示了自动化工具如Ansible、Puppet及Docker在环境配置、软件部署、故障恢复等方面的实际应用效果,为读者提供了一套可参考的实施框架。 ####
|
27天前
|
机器学习/深度学习 人工智能 运维
智能化运维在现代数据中心的应用与挑战####
本文深入探讨了智能化运维(AIOps)技术在现代数据中心管理中的实际应用,分析了其带来的效率提升、成本节约及潜在风险。通过具体案例,阐述了智能监控、自动化故障排查、容量规划等关键功能如何助力企业实现高效稳定的IT环境。同时,文章也指出了实施过程中面临的数据隐私、技术整合及人才短缺等挑战,并提出了相应的解决策略。 --- ####
48 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代数据中心的应用与挑战####
本文深入探讨了智能化运维(AIOps)技术如何革新现代数据中心的运维管理,通过集成人工智能、大数据分析及自动化工具,显著提升系统稳定性、效率和响应速度。文章首先概述了AIOps的核心概念与技术框架,随后详细分析了其在故障预测、异常检测、容量规划及事件响应等方面的应用实例,最后探讨了实施过程中面临的数据质量、技能匹配及安全性等挑战,并提出了相应的应对策略。本研究旨在为数据中心管理者提供关于采纳和优化AIOps实践的洞见,以期推动行业向更高效、智能的运维模式转型。 ####
|
2月前
|
人工智能 运维 监控
智能运维在现代数据中心的应用与挑战
随着云计算和大数据技术的迅猛发展,现代数据中心的运维管理面临着前所未有的挑战。本文探讨了智能运维技术在数据中心中的应用,包括自动化监控、故障预测与诊断、资源优化等方面,并分析了当前面临的主要挑战,如数据安全、系统集成复杂性等。通过实际案例分析,展示了智能运维如何帮助数据中心提高效率、降低成本,并提出了未来发展趋势和建议。
|
2月前
|
运维 监控 中间件
数据中心运维监控系统产品价值与优势
华汇数据运维监控系统面向IT基础架构及IT支撑平台的监控和运维管理,包含监测、分析、展现和告警。监控范围涵盖了网络设备、主机系统、数据库、中间件和应用软件等。
67 4
|
5月前
|
存储 人工智能 开发框架
认识什么是互联网数据中心(IDC)
互联网数据中心(IDC)拥有高速带宽、高性能网络与安全环境,提供服务器托管、租用等服务。它是数据存储与流通的核心,支持互联网内容提供商、企业和各类网站的大规模、高质量需求。机房维护涵盖多方面,确保设备稳定运行。中国IDC行业快速发展,机房按星级划分,从一星到五星,标准逐步提升,体现国家信息基础设施的进步与成熟。国际上,Uptime Institute的Tier等级进一步规范了数据中心的可用性与可靠性标准。
208 6
|
5月前
|
机器学习/深度学习 人工智能 运维
提升数据中心效率的关键:智能运维策略与实践
【7月更文挑战第39天】 在数字化时代,数据中心作为企业信息系统的心脏,其运行效率直接关系到企业的业务连续性和竞争力。本文将探讨如何通过智能运维(AIOps)策略来优化数据中心的性能,降低运营成本,并提高服务质量。我们将分析当前数据中心面临的挑战,介绍智能运维的基本概念,以及实施智能运维时需要考虑的关键因素。最后,本文将提供一系列实用的智能运维实践案例,帮助读者理解如何将这些策略应用于实际工作中。
|
7月前
|
机器学习/深度学习 运维 数据挖掘
智能化运维:利用机器学习优化数据中心
【6月更文挑战第28天】本文将探讨如何通过机器学习技术来优化数据中心的运维工作。我们将首先介绍机器学习的基本原理,然后详细讨论其在数据中心运维中的应用,包括故障预测、性能优化和自动化运维等。最后,我们将通过一个实际案例来展示机器学习在数据中心运维中的实际效果。
|
7月前
|
机器学习/深度学习 存储 人工智能
智能化运维:未来数据中心的守护者
【6月更文挑战第13天】随着技术的飞速发展,传统的运维模式已难以满足现代数据中心的需求。本文将探讨智能化运维的概念、优势以及如何通过AI和机器学习技术提升数据中心的管理效率和安全性。
|
7月前
|
机器学习/深度学习 运维 监控
智能化运维:未来数据中心的守护者
【6月更文挑战第11天】在数字化浪潮不断推进的今天,数据中心作为企业信息架构的核心,其稳定性和高效性对企业运营至关重要。本文将探讨智能化运维如何通过先进的技术手段,实现对数据中心的实时监控、自动化管理与故障预防,从而确保企业IT基础设施的高可用性和性能优化。

热门文章

最新文章