AIOPS提升数据驱动的云托管服务

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 本篇文稿由驻云信息科技有限公司执行总监李俊涛在上海云栖大会的演讲整理而成,为我们准确的介绍了托管运维的概念与优势,并详细解读包括基础运维、应用运维、和业务运维的整套企业级运维服务体系,从多个角度阐述了如何使用AIOps提升数据驱动的企业级云托管运维服务。

日前,大热的AIOps有着非常丰富的应用场景,那么,该怎样才能将这些应用方向落实,成为助力企业运维的整套产品体系呢?驻云科技正是这样一家将理论化为实践,帮助企业用户将这些AIOps产品实际落地的企业服务商。本篇文稿由驻云信息科技有限公司执行总监李俊涛在上海云栖大会的演讲整理而成,准确的为我们介绍了托管运维的概念与优势,并详细解读包括基础运维、应用运维、和业务运维的整套企业级运维服务体系,从多个角度阐述了如何使用AIOps提升数据驱动的企业级云托管运维服务。

 

本场视频观看请戳:https://yunqi.aliyun.com/2018/shanghai/review

PPT下载请戳:https://yq.aliyun.com/articles/602764 

演讲嘉宾简介:

李俊涛 上海驻云信息科技有限公司执行总监

这篇文章的分享共三个部分

1.介绍云计算时代的托管服务和传统运维的差别

2.介绍托管运维中,包括基础运维、应用运维、业务运维的整套服务体系

3.分享驻云科技如何借助AIOps产品来帮助企业客户完成从传统运维到业务运维、智能运维的转型。

 

我们可以将企业IT的构成划分为三个层面,基础设施,应用,业务,

相对的,企业关心的核心则可以概括为可用、可靠和可维护性。

2f8d06a997728123308f4a9d3cb0235aa850dc62

在基础运维层面,企业的核心挑战是IT资产的最大可用率,如何将最基础的存储和计算资源通过云计算进行转换,来丰富运维体系的整体高度,把云计算运维付诸实践。

在应用系统层面,企业会更关心FFSF的实践:无论是监控、日志、DevOps还是容器,都要全方位保证业务的连续性。

在业务系统层面,IT运维要从辅助性角色转化成决策性角色,用数据来洞察各类事件对应的解决方案。

因此,在这三个层面上,驻云科技都能够提供对应的服务,帮助企业更好地对业务运维进行展开。

 

基础运维托管服务体系

8ad7f3d7a61e67b2bfcf39803c9eaf9b290d2b5b

从图中可以看出,对应着一套完整的基础托管服务体系,阿里云在最底层提供计算资源和技术资源,驻云科技则提供包括应用/操作系统、中间件、数据服务以及访问层面的监控保障和应急响应。整套体系由驻云科技和客户企业IT团队,运维团队共同实践和实现,有着足够强的针对性。

 

基础运维体系三张截图:

3b5fbd9aea4b4e88bfbc0b37c6066ca8dc46f3d6

第一张截图反映了基础托管服务在移动终端对告警通知的推送,将传统的短信、邮件等通知方式加以改进,进行移动端的集成。

第二张截图体现了运维体系中调用阿里云api做的云平台api整合,用图表的方式进行最直观的体现。

第三张截图则是把告警信息和钉钉进行集成,记录告急和恢复信息并进行保存,便于后期的分析、复盘以及优化。

 

应用系统托管服务体系

在应用托管服务体系方面,企业用户往往面临着诸多挑战:

首先,IT边界被扩展,CMS服务不仅为企业内部管理提供支撑,同时还要保证互联网用户的业务连续性

其次,如何在大量告警中第一时间发现问题,快速定位问题并进行处理也是重要的课题之一。

另外,基于互联网敏捷模式下的DevOps需求。提升研发,测试,运维以及IT运营团队的整体效率也是企业希望追求的一项重点

 

针对这些重点和难点,驻云科技提供了对应的了两类解决方案

A:日志服务 探索与具体应用问题相关的日志。 利用机器学习,高效分析和探索日志数据。 从日志数据中获取业务和 IT 洞察。 从日志中快速获取价值。

B:基于Docker的CI/CD解决方案。

 

日志服务方面:面向中小型客户进行服务时,通常基于阿里云SLS的日志服务来进行,其优势在于日志信息存储于用户自身的阿里云账号和体系内部,可以有效防止日志中业务数据泄露,保证日志数据安全。阿里云AK能够及时发现业务问题,并调用SLS的API进行告警。而面向大客户,则多数采用用ELK,EFK等开源组件由用户自行对采集日志,再进行整理以及分析。

a5da043e7fb8a19a1d052c2588b542a3e6c91f6b

驻云的日志团队会和企业的产品和研发团队一起,在研发阶段即做好日志方面的预判,发生故障可以从前到后探测,了解日志上下文关系,帮助运维人员直接定位问题

2bd6db365b1f7f6e3ecd4510080ceed653088646

这里是一张AIOps对客户业务数据的访问基线监控分析:AIOps对外提供轻量、智能的算法和解决方案,企业可以尝试通过提供一定时长内的历史数据,来生成极限,寻找毛刺点,从而自动进行告警。通过将阈值和智能基线算法结合起来的方法使告警结果更加精准,

bc20fd03e607ad8304a83bd9aaf57eaa52fbeb08

最后,日志和数据分析进行结合也是服务中的重点:

1.基于业务日志做业务数据大屏 2.基于访问日志做用户分析

 

基于容器的托管服务:如今,在应用层访问 AIOps是一项很热门的课题。 从传统运维到现在的AI智能运维,驻云作为落地企业服务商,大多数企业没做好AIOps转移,驻云倾向于和客户一起,共同搭建专属AIOps平台,提供容器托管方案。

 

相关的多种解决方案:

基于Docker运维体系结构的整体设计,以及现有应用的Docker化改造方案

工具平台:

Confluence 文档知识库管理; Jira项目管理平台 ;Gitlab等代码管理平台集成与改造

赋能体系:

现有团队人员的Docker培训与赋能、定期技术沙龙主题,以及专业Docker线下课程培训。

技术实施:

使用Jenkins 与Gitlab 持续集成自动化部署

环境快速部署、整体交付和管理

应用服务CI/CD配置和协助

容器调度规则和健康检查

黑盒监控和白盒监控

基础资源 容器 业务日志

故障快速定位和排查、自动/手动修复

日志分析、预测和业务运营支撑

运维和运营大屏接入

 b11133ff441674fdbbfe44ae1f029762b3af3ba7

对大多数企业来说,企业只要把应用搭建在Docker平台上,就能够享受到完整的容器监控以及日志服务,完整而容器化的解决方案会利用开源软件对存在问题进行整合与处理。

c76f3bf87efb56bf90a0ffb1c0ddf47929448d6c

 

业务运维托管服务体系:

在业务运维方面,驻云的核心思想就是像运营业务一样运营IT,包括但不限于:

通过智能预测,为未来业务发展合理制定规划。 最大限度地提高数据库和中间件的性能;

对IT数据进行多维分析,从中获取洞察,轻松搜索应用和系统组件;

以及快速构建自定义仪表板来发布分析结果。

4fb8b8c3fabc1f87aa0a42ccc6db4fd0d3a0a4af

我们可以看到一份业务运维大屏输出的例子,数据源、服务器数据以及中间件数据都基于阿里云的技术体系,而后再针对这些数据进行汇集数据,输出和展现,从而实现业务大屏输出。

 

以数据为核心的业务运维云托管服务,经过整理加工后,生成有价值的数据,同样能为业务运营提供强大的支持

3af461f46b19543c4f128c768944048652c803ac

驻云科技以企业云托管服务解决方案为中心,提供解决方案组合,匹配企业深度云化全场景需求,形成了多种多样的企业级云托管服务解决方案。

397978efd844dce943f5ddb60a084df80ee06c5e



本文由云栖志愿小组森柠整理

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
7月前
|
弹性计算 运维 安全
CloudOps自动化运维套件,助力企业更好上云、用云、管云
今天分享的内容来自阿里云弹性计算高级产品专家马小婷带来了云上自动化运维最佳实践的相关分享,主要分为企业用云和使用ECS面临的挑战、CloudOps是什么以及一站式用云解决方案:ECS Insight这3大块来详细讲解。
|
1月前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
79 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
运维新纪元:AIOps引领智能运维变革####
本文探讨了人工智能与运维管理深度融合的前沿趋势——AIOps(Artificial Intelligence for Operations),它通过机器学习、大数据分析等技术手段,为现代IT运维体系带来前所未有的智能化升级。不同于传统依赖人力的运维模式,AIOps能够实现故障预测、自动化修复、性能优化等功能,大幅提升系统稳定性和运营效率。文章将深入分析AIOps的核心价值、关键技术组件、实施路径以及面临的挑战,旨在为读者揭示这一新兴领域如何重塑运维行业的未来。 ####
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:从传统到AIOps的转型之路####
本文探讨了智能化运维(AIOps)的兴起背景、核心价值及其对现代IT运维模式的深刻影响。通过分析传统运维面临的挑战,阐述了AIOps如何利用大数据、机器学习技术实现故障预测、自动化处理与决策支持,进而提升运维效率和服务质量。文章还概述了实施AIOps的关键步骤与面临的主要挑战,为组织向智能化运维转型提供参考路径。 ####
|
1月前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
72 5
|
5月前
|
机器学习/深度学习 边缘计算 运维
智能化运维的崛起:机器学习在IT基础设施管理中的应用
随着企业对IT基础设施的依赖日益加深,传统的运维模式已难以满足现代业务的需求。本文将探讨智能化运维的概念,分析机器学习技术如何革新IT基础设施的管理方式,提升运维效率,并预测其在未来运维领域的发展趋势。通过具体案例,本文旨在展示智能化运维的实践价值及其对企业数字化转型的推动作用。
69 0
|
4月前
|
机器学习/深度学习 人工智能 运维
云原生时代的运维革新:从自动化到智能化的演进
【8月更文挑战第21天】 本文将带你走进云原生技术的世界,探究它如何重塑了运维(Operations)领域。我们将一起见证,随着云计算和微服务架构的兴起,传统运维模式如何逐步向自动化、智能化转变,并最终实现运维4.0的飞跃。文章以通俗易懂的语言,阐述了现代运维面临的挑战与机遇,并结合真实案例,展示了自动化工具和智能运维平台如何提升效率、降低风险。无论你是运维新手还是资深专家,这篇文章都将为你提供新的视角和思考。
55 0
|
6月前
|
机器学习/深度学习 运维 监控
智能化运维的崛起:机器学习在IT运维中的应用与挑战
本文将深入探讨如何通过机器学习技术提升IT运维的效率和准确性,分析其在故障预测、自动化处理及安全监控方面的应用实例,并讨论实施过程中可能遇到的技术与管理挑战。
121 0