优云蒋君伟:自动化运维成本仍然很高

简介: 优云是如何做自动化运维的呢?

9月10日-11日,上海光大国际会展中心隆重举办了“2017上海站CNUTCon全球运维技术大会”。本次大会的主题是“智能时代的新运维”,各个公司为观众带来了他们关于该主题的思考,并分享了他们的实践经历。InfoQ有幸邀请了杭州优云软件有限公司的产品副总裁蒋君伟老师接受我们的采访。谈到对自动化运维未来的展望,蒋老师表示自动化运维必然是大势所趋,但是因为相关技术债务的存在,自动化运维的成本还很高。那优云自己的技术与产品是如何去做高效运维的呢?本次采访带你了解一二。

InfoQ:与其它同类产品相比,优云有哪些优势?
蒋君伟:要介绍优云的产品优势,我想可以简单说明一下优云是如何来的。优云来自广通,广通公司成立于2003年,14年以来一直专注于运维领域,广通的产品也随着运维行业的趋势发展,从最初的监控、CMDB、ITIL到APM,行业的客户也深入到政府、金融、运营商领域,我们对用户运维痛点与上一代运维产品的瓶颈,有深刻认识。
所以,2016年,广通成立全资子公司,推出了新一代运维产品线优云,与同类产品相比,我们有以下优势:

  1. 平台化:打通运维场景,避免运维信息孤岛与运维工具碎片化的情况
  2. 自动化:结合自动化操作编排,实现故障自愈与运维自助式服务
  3. 社交化:通过ChatOps App,由运维机器人辅助运维人员,随时随地完成运维工作
  4. 大数据:内置运维数据分析算法,有效解决数据中心容量规划难题
  5. 分布式:支持水平扩展,可随资源规模增长而增加管理能力

InfoQ:优云产品采用了哪些核心技术?
蒋君伟:优云产品的核心技术包括:
1、 安全、稳定、低负载、易扩展的采集代理平台
采集代理是运维体系中非常重要的落地工具,由于企业用户的环境非常复杂,所以采集代理在技术设计需要非常注意:
优云Agent主要使用Python与Java技术平台实现,所以在服务器的兼容性上有很大保障;
为兼容被防火墙与网闸隔离的网络,Agent总是单向对Server发起连接,拉取作业或上报结果,这种方式也可以让Agent集群形成一个网状级联,兼容多级网络;
同时Agent会主动降低进程的优先级,以降低CPU消耗,控制内存与磁盘使用,将对部署服务器的影响降到最低;
Agent使用强引擎弱脚本的设计思路,内置了ssh/wmi/snmp/ipmi等交互协议,允许用户快速使用shell/python/groovy等脚本快速扩展Agent能力。
2、 可视化埋点技术
优云UEM产品可以实现用户Web端与移动端的用户操作体验监控,不像传统的用户体验监控产品,我们不需要预先埋点,我们可以帮助产品经理生成用户的操作热区,并直接在产品界面上操作,决定要关注哪些用户的操作行为。这个埋点依赖两个部份完成:
用户交互数据的全量抓取技术:通过在应用端部署前端agent js, agent会监听页面中的相关操作,比如点击事件,超链接等,将相关数据(比如来源、去向)全部记录下来,并每隔1分钟进行上报,由服务端存储分析。
用户界面元素标记技术:可以直接在被监控应用端进行框选,设置页面元素标记,这些元素会和全量采集的数据进行匹配(比如通过匹配css选择器、文本等)。通过这种可视化标记的方式就可以直接关注用户需要的数据,无须开发者手动对页面元素进行埋点。
3、全链路监控技术
优云UEM与APM,已经将用户端的操作与服务端对此操作的执行过程结合在一起,通过UEM的用户端请求染色,可以跟踪每一个请求操作到服务端,针对服务端的常用RPC协议,如http/dubbo/rmi等,也可以通过嵌入式agent进行染色与跟踪。因此,一笔操作所经过的每一个计算节点与数据存储节点的调用堆栈,我们都可以捕捉到,并能呈现分析其中的瓶颈节点与代码。
4、 图像质量分析算法
优云VideoMon产品使用的图像与视频质量分析算法,可以快速完成摄象头成像质量的分析,其中诊断的准确性与快速是技术关键。使用信号波动检查、像素灰度值分析、非灰色像素集中区域分析、图像弱边缘数分析等算法,来实现视频信号丢失检测、偏色检测、清晰度异常检查等功能。

InfoQ:谈谈对全栈双态运维解决方案的具体理解?
蒋君伟:这里有两个关键词:

  1. 全栈
    全栈体现了解决方案的覆盖面是完整的,运维的对象,可以从基础架构到业务应用;从物理资源到云资源;从用户端到服务端的全链路运维。
  2. 双态
    双态则有两层含义。从技术层上来说,双态要求产品能同时进行传统IOE架构的运维,以及x86架构的云资源运维;从管理上来说,应能支撑ITIL与DevOps这两种运维体系。

我认为全栈双态运维解决方案,应该能满足这两个关键词。

InfoQ:优云产品解决方案已经应用到了哪些行业和哪些客户中?具体效果如何?
蒋君伟:自16年7月发布我们的产品后,很多用户都非常踊跃,到目前我们也实施了不少典型案例:
1、 某金融双态方案,实现云资源交付的服务自助化
金融目前是最典型的双态运维场景了,一方面金融核心系统要保持非常稳定,是稳态,另一方面移动支付渠道又要求应用的迭代与响应非常敏捷,是敏态。
通过优云的Monitor,我们实现了传统业务与互联网业务的全栈监控;并且通过ITSM实现流程自助服务,业务部门提交的资源申请工单,在审批通过时,借助CMDB与Automation,实现业务部门的资源交付、应用部署自助化。

2、 某部委业务大数据分析监控方案
此客户全国拥有数万的站点需要上报业务数据,这些数据的处理要求非常高的时效性与准确性。由于站点的规模变大、数据种类增加以及数据监控粒度的增加,旧的业务支撑保障系统已无法满足对业务数据的实时监控需求。
优云Store运维数据平台具有大数据分析能力,能实现这些上报的业务数据实时流数据处理,结合CMDB中的站点基本信息,实现监控指标的多个管理维度分析,并通过Show大屏可视化呈现全国的数据质量。

3、 某海外平安城市运维项目
平安城市中存在大量的IT设备与海量的物联网设备需要运维管理,其运维团队对于整个城市的摄象头故障总是头痛不已,一直处于被动运维的状态。
优云VideoMon能快速完成上万路的摄象头图像质量分析监控,大量减少运维团队的巡检成本。对存在故障的结点,优云Alert通过告警热图功能,从地域、类型、业务等多个维度,为用户呈现故障分布情况,快速帮助用户找到问题根源,缩短故障修复时间。

InfoQ:谈谈对自动化运维的展望。
蒋君伟:自动化运维必然是大势所趋,并且会越来越快地改变我们的运维工作,目前我们所处的时代是一个旧与新的过渡时代,就像集装箱发明后的航运业一样。
在集装箱刚开始被发明出来的阶段,大家从心理到技术上都没有作好准备,包括货主、公路、铁路、港口、吊车到轮船,都没有为集装箱做好配套。但由于几个关键事件,集装箱的标准化,以及随之配套的操作、运输手段,很快就改变了全世界。
我们现在也是,虽然容器及服务、函数及服务技术已经出现,但我们还有太多的历史债务需要偿还,所以现在的标准化与自动化的收益还不明显,自动化运维的成本还很高。
但随着历史债务的解决,新的应用研发、运维手段,都会围绕着这些新技术配套起来,到时候自动化运维就非常容易实施与获得巨大收益。
最后,我们运维人员也会像码头工人一样,需要改变我们的技术工作内容与深度,否则就会被下岗。

了解更多优云产品,请访问优云官网 www.uyun.cn

嘉宾介绍:
蒋君伟,优云产品副总裁,IT运维领域的十年老兵,先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了国内多个全国性的网络管理与运维管理项目。现从事优云新一代数据中心运维产品研发工作,主要负责产品线规划、核心技术研发、研发团队建设与运维咨询等工作。

相关文章
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
68 4
|
27天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
27天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
68 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
61 4
|
1月前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
98 1
|
2月前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
63 3
|
2月前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
104 1
|
2月前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
62 1
|
2月前
|
运维 jenkins 持续交付
自动化部署的魅力:如何用Jenkins和Docker简化运维工作
【10月更文挑战第7天】在现代软件开发周期中,快速且高效的部署是至关重要的。本文将引导你理解如何使用Jenkins和Docker实现自动化部署,从而简化运维流程。我们将从基础概念开始,逐步深入到实战操作,让你轻松掌握这一强大的工具组合。通过这篇文章,你将学会如何利用这些工具来提升你的工作效率,并减少人为错误的可能性。