在云计算、大数据、人工智能、物联网、区块链技术的发展日新月异的今天,2018杭州·云栖大会于9月19-22日在杭州云栖小镇举办,本届云栖大会的会议主题为“驱动数字中国”,在170多场的前沿峰会和分论坛中,9月19下午200人的“智能运维”专场各位引人注目,现场爆满。
本次的“智能运维”专场中,来自清华大学、阿里巴巴基础设施、阿里巴巴研发效能、阿里巴巴计算平台事业部的小伙伴们,为全球开发者分析了及我们分享了,智能运维的学界、业界前沿以及阿里巴巴全链路(供应链、数据中心、集群运维、应用运维)的智能化运维探索之路。
《阿里巴巴智能运维体系建设》
刘国华 阿里巴巴集团研究员
阿里巴巴集团研究员刘国华首先开场,分享了阿里巴巴智能运维方面的探索和实践。阿里巴巴的运维系统随着基础设施规模的发展,经历了一个从人工到平台化和智能化的自然的演进过程。目前,阿里基础设施的高复杂、高安全、高可靠、高效率方面的要求完全超出了人所能处理的范围,需要全面依赖机器智能才能面对快速发展的趋势。
运维的场景中需要通过机器智能解决的问题是多种多样的。这个需要我们把机器学习、优化算法和在各个专业领域方面的知识完美结合起来,针对具体的优化场景,产生令人满意的解决方案。智能运维的实现是运维平台实现信息化和数字化之后的自然发展。同时运维平台的宽度和厚度决定了上面智能实现的深度和厚度。如果把DC当做一台计算机,那么运维平台就是这台超级计算机的操作系统。需要从全局的角度,统一整个数据中心的管控、调度体系,来提升整体的数据中心应用率,内容包含能耗、电力、利用率等,各个维度实现整体调度最优化。
刘国华把运维体系建设设计的思路总结为四个方面:系统思维、底线思维、安全思维、全局思维。智能化是整个自动化的终极状态。目标就是要把复杂留给自己,把简单留给用户。阿里在供应链、服务器运维、集群和应用运维等职能运维方面都已经做出了有益的尝试并取得了不错的效果。后面还会有更大的投入,建立一个完善的智能维护体系,成为阿里巴巴业务的核心支撑。
《Robust design of a reverse supply chain network planning 》
张智海 清华大学工业工程系副教授
张智海教授本次分享结合一个光伏电池回收网络的规划与运营问题,探讨了如何利用鲁棒优化方法对不确定系统进行建模,并开发了一个高效的优化算法对建立的模型进行优化求解,进而分析了系统运营规律和特点。
各种不确定因素(例如价格、需求)给供应链网络运营带来极大挑战,“我们为什么要做这个东西?”张智海教授说到,这是实际应用的案例,当我们设计一个系统或者设计一个方案的时候,设计的过程往往是对未来参数的值的期望,基于期望值做的设计和规划,在实际的运营过程中,当期望值发生变动的时候,如果系统设计足够强壮的话,设计可能就失效了。一方面,我们设计的系统要有最优的成本表现,但是如果值发生变动以后,成本可能变得非常恶劣,当然这样的情况是极端的情况,设计就完全失效了。即使参数和当时设计的参数有一定的偏差,设计的方案依然可以有效的运行,为了实现这样所以我们用了分步优化方法。
《智能化应用运维》
黄心懿 阿里巴巴高级技术专家
本次分享将向大家介绍了阿里最大的运维平台是如何转型的,如何以智能化方式实现监管控一体的自动化体系建设,如何稳定,高效,低成本的完成百万级服务器的运维。
他介绍了阿里的运维平台的演进历史,以及DevOps的最佳实践。并通过一次发布过程,介绍了“无人值守发布”实现关键的技术方案,无人值守发布做为阿里在智能化运维领域的全新探索,探索出一套适应于阿里的应用智能化发布部署体系并实现系统化。通过这套系统,首次描绘出了一个应用在变更部署过程中的数据画像,通过机器学习以及优化算法能及时有效地发现并拦截异常的变更,把变更类故障剿灭在萌芽状态。
《MSP引领运维的智能化变革》
李云(Brad Lee) 北京贝斯平云科技有限公司 总裁
本次分享从第三方独立MSP运营商的角度,分析解释在新的互联网运维时代,运维管理的变革推动了MSP成为行业新趋势,并探讨如何建设MSP的高效运作模式,助力行业,为客户提供稳定、高效、一站式的智能化业务运维服务。
他说到,“在AI-Ops时代,MSP企业在积累经验,经验是来自于逐步性的动作,AI是有场景的,AI是有数据的,AI是有算法的,我们作为MSP,有些东西是海量数据,包括海量经验,数据是我们自己提供运维的时候,我们平台的数据,经验是最宝贵的部分,从标记、特征、决策树等,采集之后成为AI-Ops的方向。”
《数据化运维构筑智能运维能力》
孙永华 阿里巴巴运维专家
本次分享将向大家介绍阿里巴巴大数据SRE在数据化运维的体系化建设历程,为企业客户构建数据化运维体系带来可落地的思路和帮助。在AIOps的实践过程中,发展数据化是一个必经之路。正如坊间的一句话,要做AI先做BI。
因此他提出了DataOps的概念,在DataOps之上构建相应的数据应用场景,解决业务的各类问题。在运维数据仓库之上,提到了3个重要的运维应用场景,知识图谱(搜索和Chatops)、智能监控、运筹优化。
在构建DataOps的过程中,需要先构建运维数据仓库,通过阿里云的大数据技术栈以及数据仓库的维度模型可以很方便地构筑出运维数据仓库;通过基于数据仓库的应用,通过对机器打标签建立画像,进行服务器的治理;以及另外一个数据应用领域是智能监控,讲到了指标监控的2种方法以及日志异常检测的方法。
《智能化大规模集群运维》
菅骁翔 阿里巴巴资深技术专家
本次分享为大家介绍阿里巴巴在云战略中的智能化实践。如何通过自动化和智能化手段运营大规模集群,如何在计划内变更稳定性及异常处理方面应用智能算法辅助决策,提高大规模集群稳定性并降低运营成本。
从单机到多机,单数据中心到多数据中心,IT基础设施规模化管理成为降低日常运营成本的重要手段,整个的自主优化,我们把数据化结合自动化、智能化的方法,最后达到持续学习优化的过程。
他举例说到“我们的集群变更模式,分为两类:一种是计划内,主要关键点是灰度模型,具体的服务实现自己所需要的策略,我们把所有的服务作为服务巩固把模型实现出来,把整个计划内的风险控制得非常低。另外一种异常处理,在大部分环境下可以积累数据进行更优化的判断,保障变更的稳定性。”
《智能化数据中心运营》
焦靖 阿里巴巴高级技术专家
本次分享向大家介绍了阿里巴巴智能化数据中心运营的体系化建设历程。随着电商,阿里云等业务的快速发展,给IDC建设,服务器交付,运维等带来了越来越多的挑战。整个DC运营体系,经过了数据化,自动化二个阶段的演进与发展,正在往着智能化方向迈进。通过全方位的数据监控和采集,提供统一视角的IDC监控中心,对核心指标进行监控告警。基于大数据的积累,和自动化的产品流程,在关键节点使用AI技术进行针对性的优化提升,推动运维模式的变革,从被动响应到主动,预防性维护演进。
《智能化数据中心供应大脑》
朱婉怡 阿里巴巴高级技术专家
本次分享向大家介绍了阿里巴巴数据中心供应链大脑的主要发力点:如何对数据中心端到端的供应链进行精准预测链接和对资源分配做主动预先式优化管理,如何结合运筹优化和长期预测智能化系统化制定DC建设长远战略,以最佳的成本和最小的供应风险保障资源的交付和使用。
她讲到通过预测技术演进,从完全被动到粗略估计到单线数据进行统计预测,开始尝试结合多元因子进行需求预测,有了大数据和人工智能帮助我们建造持续演进的需求预测的系统,随着数据层的丰富,预测技术的丰富,预测技术是不断演进,从而精确抓住产品的采购,帮助供应链的管理由被动变主动,降低成本,控制风险。
《智能化故障管理》
王肇刚 阿里巴巴高级技术专家
分享了阿里巴巴在故障处理领域进行智能运维实践的成功案例,助力企业客户在实际的业务和技术环境中推进智能运维的实践进程,提升运维工作的质量和效率。
介绍“智能基线”的框架,解决的是精准监控的问题,通过算法框架,在时间序列分解预测加上机器学习的方式解决业务精准监控的问题,并通过一些方案把异常指标关联应用,数据及基础设施,最后基于在线的运维数据仓库,查询到在这个瞬间哪些应用上有问题,最后得到可疑事件。并通过一些策略,把可能是一类原因的业务聚合起来,然后会把跟下跌相关的业务指标推荐出来,通过这种方式让我们出现应急事件的时候,协作效率提高。
《智能化应急协同》
郭锐 阿里巴巴技术专家
分享了阿里巴巴在应急处理领域,基于IM的机器人,通过大数据分析,意图训练等进行应急协同作战的最佳实践。
基于复杂的生态体系,一旦出现应急的时候,如果不及时处理,可能会带来更不好的结果,阿里巴巴在应急这块的处理流程,还是比较规范,从故障发现到信息情报,中间有应急调度、故障定位、故障恢复,通过一系列的手段进行应急统一搜索,统一调度到把事情处理掉,最后把相互之间协同起来,最后收集到统一的协同中心。
对于未来的畅想,他说到“我们今天的主题是智能运维,那是我们理想的彼岸,其实我们一起在前进的道路上,在前进的道路上,我们的人参与定规则、定算法,很多离不开自己的参与,我们有很多的成长空间,但是未来的方向和机制是不变的。”
通过本次云栖大会 “智能运维专场”的分享,我们针对运维的智能领域分享智能运维的成功案例以及阿里全局性应急决策与指挥经验,为企业客户构建智能化运维体系带来可落地的思路和帮助。
我们正在建设的DC Brain结合了AI和对应的专业领域去建设自动交付,主动优化和自主演进的智慧化运维体系,打造“Towards a Self-driving Data Center”!
更多
精彩瞬间
200人的场地座无虚席
现场异常火爆
We Make AI-Ops Happen!