日前,大热的AIOps有着非常丰富的应用场景,那么,该怎样才能将这些应用方向落实,成为助力企业运维的整套产品体系呢?驻云科技正是这样一家将理论化为实践,帮助企业用户将这些AIOps产品实际落地的企业服务商。本篇文稿由驻云信息科技有限公司执行总监李俊涛在上海云栖大会的演讲整理而成,准确的为我们介绍了托管运维的概念与优势,并详细解读包括基础运维、应用运维、和业务运维的整套企业级运维服务体系,从多个角度阐述了如何使用AIOps提升数据驱动的企业级云托管运维服务。
本场视频观看请戳:https://yunqi.aliyun.com/2018/shanghai/review
PPT下载请戳:https://yq.aliyun.com/articles/602764
演讲嘉宾简介:
李俊涛 上海驻云信息科技有限公司执行总监
这篇文章的分享共三个部分
1.介绍云计算时代的托管服务和传统运维的差别
2.介绍托管运维中,包括基础运维、应用运维、业务运维的整套服务体系
3.分享驻云科技如何借助AIOps产品来帮助企业客户完成从传统运维到业务运维、智能运维的转型。
我们可以将企业IT的构成划分为三个层面,基础设施,应用,业务,
相对的,企业关心的核心则可以概括为可用、可靠和可维护性。
在基础运维层面,企业的核心挑战是IT资产的最大可用率,如何将最基础的存储和计算资源通过云计算进行转换,来丰富运维体系的整体高度,把云计算运维付诸实践。
在应用系统层面,企业会更关心FFSF的实践:无论是监控、日志、DevOps还是容器,都要全方位保证业务的连续性。
在业务系统层面,IT运维要从辅助性角色转化成决策性角色,用数据来洞察各类事件对应的解决方案。
因此,在这三个层面上,驻云科技都能够提供对应的服务,帮助企业更好地对业务运维进行展开。
基础运维托管服务体系
从图中可以看出,对应着一套完整的基础托管服务体系,阿里云在最底层提供计算资源和技术资源,驻云科技则提供包括应用/操作系统、中间件、数据服务以及访问层面的监控保障和应急响应。整套体系由驻云科技和客户企业IT团队,运维团队共同实践和实现,有着足够强的针对性。
基础运维体系三张截图:
第一张截图反映了基础托管服务在移动终端对告警通知的推送,将传统的短信、邮件等通知方式加以改进,进行移动端的集成。
第二张截图体现了运维体系中调用阿里云api做的云平台api整合,用图表的方式进行最直观的体现。
第三张截图则是把告警信息和钉钉进行集成,记录告急和恢复信息并进行保存,便于后期的分析、复盘以及优化。
应用系统托管服务体系
在应用托管服务体系方面,企业用户往往面临着诸多挑战:
首先,IT边界被扩展,CMS服务不仅为企业内部管理提供支撑,同时还要保证互联网用户的业务连续性
其次,如何在大量告警中第一时间发现问题,快速定位问题并进行处理也是重要的课题之一。
另外,基于互联网敏捷模式下的DevOps需求。提升研发,测试,运维以及IT运营团队的整体效率也是企业希望追求的一项重点
针对这些重点和难点,驻云科技提供了对应的了两类解决方案
A:日志服务 探索与具体应用问题相关的日志。 利用机器学习,高效分析和探索日志数据。 从日志数据中获取业务和 IT 洞察。 从日志中快速获取价值。
B:基于Docker的CI/CD解决方案。
日志服务方面:面向中小型客户进行服务时,通常基于阿里云SLS的日志服务来进行,其优势在于日志信息存储于用户自身的阿里云账号和体系内部,可以有效防止日志中业务数据泄露,保证日志数据安全。阿里云AK能够及时发现业务问题,并调用SLS的API进行告警。而面向大客户,则多数采用用ELK,EFK等开源组件由用户自行对采集日志,再进行整理以及分析。
驻云的日志团队会和企业的产品和研发团队一起,在研发阶段即做好日志方面的预判,发生故障可以从前到后探测,了解日志上下文关系,帮助运维人员直接定位问题
这里是一张AIOps对客户业务数据的访问基线监控分析:AIOps对外提供轻量、智能的算法和解决方案,企业可以尝试通过提供一定时长内的历史数据,来生成极限,寻找毛刺点,从而自动进行告警。通过将阈值和智能基线算法结合起来的方法使告警结果更加精准,
最后,日志和数据分析进行结合也是服务中的重点:
1.基于业务日志做业务数据大屏 2.基于访问日志做用户分析
基于容器的托管服务:如今,在应用层访问 AIOps是一项很热门的课题。 从传统运维到现在的AI智能运维,驻云作为落地企业服务商,大多数企业没做好AIOps转移,驻云倾向于和客户一起,共同搭建专属AIOps平台,提供容器托管方案。
相关的多种解决方案:
基于Docker运维体系结构的整体设计,以及现有应用的Docker化改造方案
工具平台:
Confluence 文档知识库管理; Jira项目管理平台 ;Gitlab等代码管理平台集成与改造
赋能体系:
现有团队人员的Docker培训与赋能、定期技术沙龙主题,以及专业Docker线下课程培训。
技术实施:
使用Jenkins 与Gitlab 持续集成自动化部署
环境快速部署、整体交付和管理
应用服务CI/CD配置和协助
容器调度规则和健康检查
黑盒监控和白盒监控
基础资源 容器 业务日志
故障快速定位和排查、自动/手动修复
日志分析、预测和业务运营支撑
运维和运营大屏接入
对大多数企业来说,企业只要把应用搭建在Docker平台上,就能够享受到完整的容器监控以及日志服务,完整而容器化的解决方案会利用开源软件对存在问题进行整合与处理。
业务运维托管服务体系:
在业务运维方面,驻云的核心思想就是像运营业务一样运营IT,包括但不限于:
通过智能预测,为未来业务发展合理制定规划。 最大限度地提高数据库和中间件的性能;
对IT数据进行多维分析,从中获取洞察,轻松搜索应用和系统组件;
以及快速构建自定义仪表板来发布分析结果。
我们可以看到一份业务运维大屏输出的例子,数据源、服务器数据以及中间件数据都基于阿里云的技术体系,而后再针对这些数据进行汇集数据,输出和展现,从而实现业务大屏输出。
以数据为核心的业务运维云托管服务,经过整理加工后,生成有价值的数据,同样能为业务运营提供强大的支持
驻云科技以企业云托管服务解决方案为中心,提供解决方案组合,匹配企业深度云化全场景需求,形成了多种多样的企业级云托管服务解决方案。
本文由云栖志愿小组森柠整理