2021年,可观测与智能运维国标编写已启动,提出了云平台的云产品应具备完善的可观测能力。Gartner预测,到 2024 年,将有 30% 的企业使用可观测技术来优化资源,加速问题定位,提升用户体验,尤其是使用云架构的企业。
当前,面对云产品的运维,企业缺乏有效的手段,主要包括数据不全、数据粒度较低、时间粒度过滤维度少等。其次,云产品实例数据分散,用户难以打通,客户对于ALB类的云产品并不熟悉,难以通过数据得到有效的性能分析,分析问题的门槛较高。
从竞品上来看,云产品主要以日志、指标、用量等独立数据源与查询可视化能力为主。而友商提出的 storage Lens 等多以多云切入,打通了日志、计量、指标等数据,聚焦在某个优势领域,如成本分析、性能诊断。
SLS 具备丰富的可观测数据源,如日志、云监控的指标、云产品的计量费用中心等,还具备自研的大规模可观测数据的实时查询与分析能力。
Cloud Lens for ALB 不只是获取基础的可观测数据,而是低门槛地将数据打通,关联分析并获得洞察,辅助 ALB 使用的优化。数据源主要有ALB 的访问日志、SLS 的指标数据。
另外,我们提供了 Cloud Lens for ALB 统一入口以及 ALB 控制台实例的入口,为用户提供了访问分析、性能监控、异常检测以及自定义分析等场景化inside功能。
Lens for ALB 架构提供了ALB 的 7层访问日志、秒级监控、指标分析、实时告警、异常自动巡检,支持集中管理账号下所有 ALB 实例与日志的采集状态。提供ALB 访问日志的实时存储、查询、分析并可实时提取 PV、平均延迟、出入流量指标等数据。
同时,基于智能巡检的功能提供丰富的可视化报表与异常巡检,支持自定义告警配置,具备短信、邮件、语音、钉钉等多种渠道的通知能力。
Lens for ALB 的优势主要体现在以下几点:
操作简单:一站式开通,中心化使用,无需关心日志收集存储的问题,开发与运维人员可以将更多的精力集中到业务开发上。可自定义配置预聚合的能力,大幅提升查询速度。
海量数据、弹性存储:阿里云负载均衡结合日志服务强大的大数据计算能力,秒级分析处理实时产生的日志,满足DevOps、监控、告警等实时性要求较高的场景。Logstore 容量可动态伸缩,支持实例级别开通或关闭访问日志,任意设置日志的存储时间。
实时查询、智能巡检:基于达摩院智能的 AIOps 算法,提供 ALB 指标自动巡检功能,有助于更快、更准确地发现并定位问题。
Alibaba Cloud Lens for ALB 由四个模块组成,分别是接入管理模块、报警管理模块、查询分析模块以及报表中心。
接入管理模块提供 ALB 实例的全局集中管理,实例接入展示了账号内所有ALB 的全局实例,提供访问日志的一键开启操作。目标存储汇聚了访问日志存储的 project 与 logstore ,并支持日志存储的周期修改。
告警管理模块内置了十五条告警规则,提供基线告警、同环比告警、智能告警,涵盖了 QPS 、延迟、错误率、流量等高频场景。
分析模块提供 ALB 访问日志的实时查询与分析。
报表中心提供了五大报表,包含19 个实时监控数据、8个维度的秒级监控数据以及异常指标的分布。
访问概览提供 ALB 实例整体状态,包括PV、UV 的日环比、周环比信息等。
Demo演示
登录 SLS的控制台,在日志应用云产品 Lens 的标签下,点击Cloud Lens for ALB 。
首先进入接入管理页面。接入管理的 ALB 实例记录中汇聚了账号下所有 ALB 实例,可以进行实例的访问、日志的开启等操作。
点击开启后,会提供两种方式的日志存储,分别为选择已有 project 或新建 project 。
点击列表右侧的访问日志,可直达访问日志的查询页面,可以直接进行日志库的查询操作。此外,也可以通过点击左侧的查询分析,选择需要的 ALB 实例进行查询。
存储目标库里汇聚了所有 ALB 开启的目标库的存储情况,可以对目标的日志库进行修改。数据存储时间支持自定义天数、永久保存或开启智能冷热分层存储。
基于访问日志,可以在告警管理页面进行告警配置,Cloud Lens for ALB内置了十五条告警规则。
可以根据业务需要直接选择相应的告警规则,点击日志,开启告警。开启后点击设置,可以对告警阈值、黑白名单等信息进行设置。
报表中心提供了监控概览、监控中心、秒级监控、实例巡检以及访问概览五种报表。监控概览中提供了ALB 实例的核心指标、错误码、流量以及访问 PV 、访问成功率等数据。
监控中心提供了实时的监控指标,包括访问的 PV 、访问成功率、流量、平均延迟、 top N 类的统计等。
秒级监控提供了 QPS 、访问延迟、请求流量、成功率以及各种状态码的情况。
实例巡检基于 SLS 的机器学习算法提供了异常检测的数据,包括 PV 、出流量以及入流量。
访问概览提供了访问总体状态的查询,包括 PV、UV 以及请求等。