自动化能让运维在旁边喝咖啡?一起听听饶琛琳给我们带来的精彩演讲吧。

简介: 在运维侠客行·北京站上,主办方优云软件特意邀请了来自日志易的产品总监饶琛琳老师给大家带来了数据驱动的智能运维主题演讲。本文主要从怎么做到DevOps开始聊起,接着说了智能运维平台作用和架构,并对告警交互系统进行分析,最后对智能运维平台进行了简要总结。一起来了解下吧。

在运维侠客行·北京站上,主办方优云软件特意邀请了来自日志易的产品总监饶琛琳老师给大家带来了数据驱动的智能运维主题演讲。本文主要从怎么做到DevOps开始聊起,接着说了智能运维平台作用和架构,并对告警交互系统进行分析,最后对智能运维平台进行了简要总结。一起来了解下吧。


d499bf11c63d27323343de3bb52f5a8a29a09fba


饶琛琳,日志易产品总监,前·新浪微博系统架构师,Weibo: @ARGV,著有:《网站运维技术与实践》《ELKstack权威指南》译有:《Puppet 3 Cookbook》《Learning Puppet 4》。

398c2ef2ea7d3382f7af49b6adbf10a3a75f0138


以下是精彩内容整理:

  刚刚前面我坐在后面听,听到优云在讲双态的时候提的比较好的几个关键词,第一个就是运维其实是需要有一个平台的,第二个就是运维最终需要通过可视化走向智能化的。这个地方有两个点,第一个点是平台,这个地方可能不是我今天演讲的关键的地方,可我觉得还是要提一下。因为智能运维的英文单词就是AIOPS,不简单翻译成智能运维,按照字面上的意义翻译下来应该是基于算法的IT运维平台,OPS的P并不是把OP直接拿下来,O是Operations,P是platform需要强调平台的概念,因为我们在很多时候,运维的工作:部署,排障,性能调优。其实你在很多地方做排障的工作时,如果你没有一个好的平台,把足够多的数据、信息集中处理,你是很难受的。


  前几年搞自动化很流行的时候,大家都在喊我们有一个自动化平台,有个监控平台,有这个平台那个平台,其实那都是系统的,并不是平台,你只是把一部分数据集中在这个平台,一部分数据集中那个平台,数据之间依然并不是打通的,这是我听完其他嘉宾演讲觉得应该单独给大家点明的一部分,继续开始今天的演讲吧。

怎么做到devops-ing?或者sre呢?

7b5fffb79ac7edbaaea7ccfd91ed88a7289573a3

常见的一个情况可能大家的第一反应是我知道好多开源项目,还有监控项目一大把,很多很多开源项目,是不是把这些工具用完了我就devops?他其实不一定

 

  另外一种就是前几年比较常见的一种说法就是我们把一些东西都自动化了,用机器做事情,运维在旁边喝咖啡,这是早些年比较流行的梦想,这时候也未定了。很多东西并不是能自动化去搞的,下面有一个很具体的例子,自动化真的能让你旁边喝咖啡吗?

5af9ff1716a9a99791a73b5b95d5a9f4d9e3c817

 这是我在微博的时候的,具体的一个统计值,微博有一个单独团队叫故障管理组,他们就是负责统计故障,管理故障,反馈故障。他们当时统计结果就是百分之70的微博故障就是因为在做自动化变更时出问题,我相信其他家公司在技术投入上没有微博那么重视,在这个事情上会更严重,绝大多数故障应该是自动化变更造成的。

数据驱动的运维操作

ded539e9f8fc8d6e49809497e8903f9333e00063

 这个时候你要真正的想我运维工作应该要怎么样做好的时候,你要想刚才上面那一点,既然麻烦你的地方都是因为变更造成的,变更是自动化造成的,那是不是自动化不该做了?不是,而是我应该在恰当的时候去证明自动化该做而那个时候不该做,这时候需要充分的数据来证明这个事情,需要充分的数据证明变更是有必要的,而且变更以后不会出问题。我们需要数据来说话,这个数据需要各种各样层面,包括定期的报表、包括监控系统的拿到的性能指标,以及包括日志。

26fb22e2523b1e5f1bf4cd8909d271f8fde62d3a

  这些数据拿过来,并不是是拿过来直接就能用,因为比如前面讲到的metrics这些监控系统大多是采样的,采样意味着把很多细节点模糊掉了。大趋势来说,容量规划、流量调度的时候可以根据大的趋势干一个事情,但细节是没有的。所以我们想要拿到这些细节的时候,我们需要一个全量的数据分析,要把所有数据拿到一个平台上,每一个细节都能把握到,这时我才能做这个事情。

如何驱动

3b60305a4c79d55df40c70b8509c0364b19225c3

这是刚才提到的aiops,它的外围其实是很熟悉的东西了,监控、自动化、服务反馈。外围是所有IT运维人员在做的事情,但是中间,我们怎么样去持续的完成这件事情,而不是单纯的说有一个监控团队,有一个代码上线团队,或者说有一个单独的服务台,我们怎么样把东西自动串起来,实现智能的情况,中间需要一个单独的驱动,就是我们说的智能运维的平台。这个平台要做的事情就是拿到了全量数据Big Data,Big Data指的是拿到运维相关的全量的数据然后利用算法(machine learning),不一定都用machine learning 驱动,很多没有到machine learning 级别 的统计学概念上的算法 依然很有用的。


AIO的三大作用

1e8af6f37e81f62d21de6986002be83a12889240

智能运维平台的作用其实需要更灵活更易用的办法来访问和分析数据,举例子,hadoop到现在已经十多年了,相信大多数企业都有hadoop,我们也会把一些数据放hadoop上去,隔三差五合规审计一下,三个月,六个月数据在不在,在,这种的话对我们运维来说是没有用的,你只是完成一份工作,这种数据是没办法很好的用上它;

  另外一个作用,有一些可能不在你合规审计内零散的数据可能是有用的,在目前不一定到容器化可能是模块化,一个多模块分布式的业务架构上,各个主键他们互相之间的一些业务数据,其实可以反映很大的IT运营价值,但这种数据并不是底层的IT运维东西,并没有特别明确的规范,说要求你怎么样怎么样,如果你不去做他,这些散落在各组件上数据就对你毫无意义,这其实就是构建一个智能运维平台可以发挥很大价值的东西;

  第三点的作用,就是说你要搞一个智能运维平台时你应该提供的价值点,没有做到这三点基本算失败的,第三点意思就是说应该有一个快速探索实验的平台,讲的细一点就是我们想一下运维人员工作时常见的状态,你遇到一个问题,这个问题你不一定知道是什么原因造成的,但你会猜一个思路,比如现在遇到一个访问故障,你会猜说是不是他的那个出问题,你上去看了,没有问题,你又猜说CDN网出问题了,我看一下CDN对不对,解析在不在,是不是被劫持了,会不断去猜的思路,所以你需要一个快速试错的平台给你跑,这就是快速探索的意思。观看视频:https://v.qq.com/x/page/q0506d7dy1f.html

PPT已上传至优云运维社区公众号,回复ppt即可下载。


关于运维侠客行沙龙

运维侠客行是优云软件打造的运维行业线下沙龙品牌,我们将在全国范围内展开马拉松式的技术普及和巡回交流活动,并针对运维、云计算、安全、大数据等多个领域进行顶级专家的技术分享交流会,让从业者第一时间了解行业前沿技术、实践案例和变革动态,为热爱技术的朋友们提供一个交流分享、观点碰撞的全新平台。



相关文章
|
29天前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
47 4
|
7天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
25 4
|
25天前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
50 1
|
27天前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
41 1
|
29天前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。
|
29天前
|
存储 运维 监控
高效运维管理:从基础架构优化到自动化实践
在当今数字化时代,高效运维管理已成为企业IT部门的重要任务。本文将探讨如何通过基础架构优化和自动化实践来提升运维效率,确保系统的稳定性和可靠性。我们将从服务器选型、存储优化、网络配置等方面入手,逐步引导读者了解运维管理的核心内容。同时,我们还将介绍自动化工具的使用,帮助运维人员提高工作效率,降低人为错误的发生。通过本文的学习,您将掌握高效运维管理的关键技巧,为企业的发展提供有力支持。
|
1月前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。
|
1月前
|
运维 监控 网络安全
Python 在网络运维方面的自动化应用实例
Python 在网络运维方面的自动化应用实例
|
1月前
|
机器学习/深度学习 运维 监控
提升运维效率:自动化工具与实践的融合
【10月更文挑战第3天】 在当今信息技术迅猛发展的时代,运维作为保持系统稳定性和性能的关键角色变得越来越重要。本文将探讨如何通过结合自动化工具和最佳实践来优化运维流程,实现高效、可靠的运维管理。从基础监控到高级自动化,我们将一步步引导您了解如何搭建和维护一个高效的运维体系。
33 3
|
1月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
下一篇
无影云桌面