AIOPS提升数据驱动的云托管服务

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 本篇文稿由驻云信息科技有限公司执行总监李俊涛在上海云栖大会的演讲整理而成,为我们准确的介绍了托管运维的概念与优势,并详细解读包括基础运维、应用运维、和业务运维的整套企业级运维服务体系,从多个角度阐述了如何使用AIOps提升数据驱动的企业级云托管运维服务。

日前,大热的AIOps有着非常丰富的应用场景,那么,该怎样才能将这些应用方向落实,成为助力企业运维的整套产品体系呢?驻云科技正是这样一家将理论化为实践,帮助企业用户将这些AIOps产品实际落地的企业服务商。本篇文稿由驻云信息科技有限公司执行总监李俊涛在上海云栖大会的演讲整理而成,准确的为我们介绍了托管运维的概念与优势,并详细解读包括基础运维、应用运维、和业务运维的整套企业级运维服务体系,从多个角度阐述了如何使用AIOps提升数据驱动的企业级云托管运维服务。

 

本场视频观看请戳:https://yunqi.aliyun.com/2018/shanghai/review

PPT下载请戳:https://yq.aliyun.com/articles/602764 

演讲嘉宾简介:

李俊涛 上海驻云信息科技有限公司执行总监

这篇文章的分享共三个部分

1.介绍云计算时代的托管服务和传统运维的差别

2.介绍托管运维中,包括基础运维、应用运维、业务运维的整套服务体系

3.分享驻云科技如何借助AIOps产品来帮助企业客户完成从传统运维到业务运维、智能运维的转型。

 

我们可以将企业IT的构成划分为三个层面,基础设施,应用,业务,

相对的,企业关心的核心则可以概括为可用、可靠和可维护性。

2f8d06a997728123308f4a9d3cb0235aa850dc62

在基础运维层面,企业的核心挑战是IT资产的最大可用率,如何将最基础的存储和计算资源通过云计算进行转换,来丰富运维体系的整体高度,把云计算运维付诸实践。

在应用系统层面,企业会更关心FFSF的实践:无论是监控、日志、DevOps还是容器,都要全方位保证业务的连续性。

在业务系统层面,IT运维要从辅助性角色转化成决策性角色,用数据来洞察各类事件对应的解决方案。

因此,在这三个层面上,驻云科技都能够提供对应的服务,帮助企业更好地对业务运维进行展开。

 

基础运维托管服务体系

8ad7f3d7a61e67b2bfcf39803c9eaf9b290d2b5b

从图中可以看出,对应着一套完整的基础托管服务体系,阿里云在最底层提供计算资源和技术资源,驻云科技则提供包括应用/操作系统、中间件、数据服务以及访问层面的监控保障和应急响应。整套体系由驻云科技和客户企业IT团队,运维团队共同实践和实现,有着足够强的针对性。

 

基础运维体系三张截图:

3b5fbd9aea4b4e88bfbc0b37c6066ca8dc46f3d6

第一张截图反映了基础托管服务在移动终端对告警通知的推送,将传统的短信、邮件等通知方式加以改进,进行移动端的集成。

第二张截图体现了运维体系中调用阿里云api做的云平台api整合,用图表的方式进行最直观的体现。

第三张截图则是把告警信息和钉钉进行集成,记录告急和恢复信息并进行保存,便于后期的分析、复盘以及优化。

 

应用系统托管服务体系

在应用托管服务体系方面,企业用户往往面临着诸多挑战:

首先,IT边界被扩展,CMS服务不仅为企业内部管理提供支撑,同时还要保证互联网用户的业务连续性

其次,如何在大量告警中第一时间发现问题,快速定位问题并进行处理也是重要的课题之一。

另外,基于互联网敏捷模式下的DevOps需求。提升研发,测试,运维以及IT运营团队的整体效率也是企业希望追求的一项重点

 

针对这些重点和难点,驻云科技提供了对应的了两类解决方案

A:日志服务 探索与具体应用问题相关的日志。 利用机器学习,高效分析和探索日志数据。 从日志数据中获取业务和 IT 洞察。 从日志中快速获取价值。

B:基于Docker的CI/CD解决方案。

 

日志服务方面:面向中小型客户进行服务时,通常基于阿里云SLS的日志服务来进行,其优势在于日志信息存储于用户自身的阿里云账号和体系内部,可以有效防止日志中业务数据泄露,保证日志数据安全。阿里云AK能够及时发现业务问题,并调用SLS的API进行告警。而面向大客户,则多数采用用ELK,EFK等开源组件由用户自行对采集日志,再进行整理以及分析。

a5da043e7fb8a19a1d052c2588b542a3e6c91f6b

驻云的日志团队会和企业的产品和研发团队一起,在研发阶段即做好日志方面的预判,发生故障可以从前到后探测,了解日志上下文关系,帮助运维人员直接定位问题

2bd6db365b1f7f6e3ecd4510080ceed653088646

这里是一张AIOps对客户业务数据的访问基线监控分析:AIOps对外提供轻量、智能的算法和解决方案,企业可以尝试通过提供一定时长内的历史数据,来生成极限,寻找毛刺点,从而自动进行告警。通过将阈值和智能基线算法结合起来的方法使告警结果更加精准,

bc20fd03e607ad8304a83bd9aaf57eaa52fbeb08

最后,日志和数据分析进行结合也是服务中的重点:

1.基于业务日志做业务数据大屏 2.基于访问日志做用户分析

 

基于容器的托管服务:如今,在应用层访问 AIOps是一项很热门的课题。 从传统运维到现在的AI智能运维,驻云作为落地企业服务商,大多数企业没做好AIOps转移,驻云倾向于和客户一起,共同搭建专属AIOps平台,提供容器托管方案。

 

相关的多种解决方案:

基于Docker运维体系结构的整体设计,以及现有应用的Docker化改造方案

工具平台:

Confluence 文档知识库管理; Jira项目管理平台 ;Gitlab等代码管理平台集成与改造

赋能体系:

现有团队人员的Docker培训与赋能、定期技术沙龙主题,以及专业Docker线下课程培训。

技术实施:

使用Jenkins 与Gitlab 持续集成自动化部署

环境快速部署、整体交付和管理

应用服务CI/CD配置和协助

容器调度规则和健康检查

黑盒监控和白盒监控

基础资源 容器 业务日志

故障快速定位和排查、自动/手动修复

日志分析、预测和业务运营支撑

运维和运营大屏接入

 b11133ff441674fdbbfe44ae1f029762b3af3ba7

对大多数企业来说,企业只要把应用搭建在Docker平台上,就能够享受到完整的容器监控以及日志服务,完整而容器化的解决方案会利用开源软件对存在问题进行整合与处理。

c76f3bf87efb56bf90a0ffb1c0ddf47929448d6c

 

业务运维托管服务体系:

在业务运维方面,驻云的核心思想就是像运营业务一样运营IT,包括但不限于:

通过智能预测,为未来业务发展合理制定规划。 最大限度地提高数据库和中间件的性能;

对IT数据进行多维分析,从中获取洞察,轻松搜索应用和系统组件;

以及快速构建自定义仪表板来发布分析结果。

4fb8b8c3fabc1f87aa0a42ccc6db4fd0d3a0a4af

我们可以看到一份业务运维大屏输出的例子,数据源、服务器数据以及中间件数据都基于阿里云的技术体系,而后再针对这些数据进行汇集数据,输出和展现,从而实现业务大屏输出。

 

以数据为核心的业务运维云托管服务,经过整理加工后,生成有价值的数据,同样能为业务运营提供强大的支持

3af461f46b19543c4f128c768944048652c803ac

驻云科技以企业云托管服务解决方案为中心,提供解决方案组合,匹配企业深度云化全场景需求,形成了多种多样的企业级云托管服务解决方案。

397978efd844dce943f5ddb60a084df80ee06c5e



本文由云栖志愿小组森柠整理

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
4月前
|
机器学习/深度学习 边缘计算 运维
智能化运维的崛起:机器学习在IT基础设施管理中的应用
随着企业对IT基础设施的依赖日益加深,传统的运维模式已难以满足现代业务的需求。本文将探讨智能化运维的概念,分析机器学习技术如何革新IT基础设施的管理方式,提升运维效率,并预测其在未来运维领域的发展趋势。通过具体案例,本文旨在展示智能化运维的实践价值及其对企业数字化转型的推动作用。
61 0
|
4月前
|
机器学习/深度学习 运维 监控
智能化运维:利用机器学习优化IT基础设施管理
【7月更文挑战第28天】在数字化时代,智能化运维成为企业提升效率、降低成本的关键。本文将探讨如何通过机器学习技术,实现对IT基础设施的智能监控与自动化管理,包括预测性维护、异常检测和性能优化等策略,旨在为读者提供一套实用的智能化运维解决方案。
|
4月前
|
机器学习/深度学习 运维 监控
智能化运维的崛起:机器学习在IT管理中的应用
【7月更文挑战第31天】随着技术的飞速发展,传统的运维模式已无法满足现代企业的需求。本文探讨了智能化运维的兴起背景、机器学习技术如何革新IT管理流程,以及实施智能化运维的策略和挑战。通过分析机器学习在故障预测、自动化处理和安全监控等方面的应用案例,文章揭示了智能化运维为企业带来的效率提升和成本节约,同时指出了在采纳新技术时需要考虑的关键因素,为读者提供了一份关于未来运维趋势的洞见。
|
4月前
|
机器学习/深度学习 运维 安全
智能化运维:利用机器学习技术优化IT基础设施管理
在信息技术迅猛发展的今天,传统的运维管理模式已难以应对日益复杂的IT基础设施。本文探讨了如何通过集成机器学习技术到运维流程中,实现智能化的运维管理。文章首先介绍了智能化运维的概念及其必要性,随后详细阐述了机器学习在故障预测、自动化处理和安全防护等方面的应用,并通过具体案例展示了智能化运维的实际效果。最后,讨论了实施智能化运维时可能遇到的挑战及未来发展趋势。
90 2
|
4月前
|
机器学习/深度学习 运维 监控
智能化运维:机器学习在IT基础设施管理中的应用与挑战
本文深入探讨了智能化运维领域,特别是机器学习技术在IT基础设施管理中的运用。文章首先概述了智能化运维的概念及其对现代企业的重要性,随后详细分析了机器学习如何优化故障预测、自动化任务处理和安全监控等关键运维活动。通过引用最新的行业案例和统计数据,本文揭示了机器学习技术带来的效率提升和成本节约。同时,文章也未回避讨论实施智能化运维时可能遇到的技术挑战和伦理问题,为读者提供了一份全面而深入的分析报告。
|
6月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AIOps在未来网络管理中的应用与挑战
【5月更文挑战第4天】随着人工智能和大数据技术的飞速发展,智能化运维(AIOps)正逐渐成为IT运维领域的革新力量。本文探讨了AIOps在现代网络管理中的关键作用,分析了其在故障预测、自动化处理、以及提升决策效率方面的潜力。同时,文章还针对AIOps实施过程中面临的技术挑战、数据隐私及安全性问题进行了深入讨论,并提出了相应的解决策略。通过实际案例分析,本文旨在为读者提供一个关于AIOps在网络管理领域应用的全面视角。
|
SQL 运维 资源调度
开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化
在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。
17317 4
开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化
|
运维 Kubernetes 监控
SREWorks 云原生数智运维平台揭秘 | 突破规模化智能运维aiops瓶颈
一套规模化运维的流水线——交付、监测、管理、控制、运营、服务。
|
存储 弹性计算 运维
带你读《CloudOps云上自动化运维 白皮书2.0》之29:2. 成本管理能力的业务价值(上)
带你读《CloudOps云上自动化运维 白皮书2.0》之29:2. 成本管理能力的业务价值(上)
125 0