一、业务需求
相比传统的告警监控,可观测性能够以白盒的方式看透整个复杂的系统,帮助更好地观察系统的运行状态,可以快速定位与解决问题。监控系统主要监控服务的性能、可用性,以尽早发现系统问题。而可观测性的侧重点在于关注如何定位问题、预防问题以及掌控组件的运行情况。
我们基于SLS的产品能力构建了云产品可观测新能力,面向trace、log 与metrics 建立了一套一站式可观测性数据洞察,在此基础之上能够提供场景化的能力,确保防患于未然。
以发动机为例,告警与监控只是明确发动机是否有问题,可以帮助大致确定哪个部件可能有问题。而真正定位细节问题,还需观察每个部件、传感器数据等,这就是可观测性。
随着云上企业使用云产品的种类越来越多,构建完善的云产品可观测性对于全栈可观测性方案变得更为重要。
2021 年,可观测性与智能运维国标编写已经全面启动,能够促进可观测性等技术更好地使用云。
随着企业上云趋势的加快,如何更好、更合理地使用云产品是多数企业的痛点。比如数据孤岛问题,数据分散在多个系统之间来回切换,缺乏统一视角;比如难以关联的分析问题,云产品指标、日志、配置等相关信息也缺乏统一的关联数据手段;比如实时与灵活度不够,难以对大规模秒级分析进行预警,难以灵活分析不同粒度和算子的不同维度;比如客户对于云产品不熟悉,通过数据来帮助使用云产品,及早发现过程中的异常、稳定性与安全配置不当等问题,也缺乏最佳实践。
云产品可观测性的建设挑战存在于多个维度。
① 用量管理:比如费用成本是否可控、是否会出现使用不合理等异常情况。
② 安全监控:比如云产品性能指标是否异常,需要及时预警以避免对业务造成影响。
③ 安全与合规:比如如何保障访问安全与数据安全。
④ 稳定性:能否及时发现故障与可用性问题,通过日志分析能力、运维监控来排查问题。
⑤ 访问治理分析:比如帮助用户建立企业分析的业务运营、产品访问情况,优化云产品的使用方式,避免不正确的使用带来额外的成本与风险。
基于以上需求,我们打造了Alibaba Cloud Lens,针对网络、计算、数据库、存储、安全等各类产品构建面向成本、性能、安全、数据保护、稳定性、访问分析等多个维度的云产品统一可观测能力。
Alibaba Cloud Lens能够帮助客户以极低门槛使用云产品的可观测,可以实现计量、指标、访问日志、审计日志,实现跨账号、跨地域自动数据采集。同时,它也能够提供非常全面的可观测能力,包含了用量分析、访问分析、性能分析、异常检测、安全分析以及数据保护等多个维度。支持多种订阅方式,比如消费组、API 或对接Grafana 等数据订阅方式。
二、产品介绍
上图为Alibaba Cloud Lens架构图。利用SLS 存储底座对接各种日志、监控指标、云产品 trace 数据、trail 、关键配置计量信息、多账号信息等数据源。可以透过Alibaba Cloud Lens 统一入口或云产品控制台来使用该产品,了解存储、安全、网络、数据库、流量类等主流云产品的使用情况。
Alibaba Cloud Lens可以创建统一的云产品访问分析、用量分析、资源管理、监控分析、数据保护等一系列场景化 inside大盘,可以将日志、指标、计量数据进行关联分析,实现加工、查询、分析、可视化、监控告警、智能巡检与建议引导。
此外,Alibaba Cloud Lens还提供了数据管理与接入模块,可自动化采集此部分数据信息用于做接入管理、存储目标库管理、自动化采集配置等一系列通用的功能模块。
Alibaba Cloud Lens为客户提供的云产品主要分为用量分析、性能监控、安全分析、数据保护、异常检测、访问分析等服务。
l 用量分析:可以通过用量分析查看资源使用量,从多维度查看统计,并设置用量预警来检测不合理与异常的使用模式。
l 访问分析:通过访问情况分析来辅助产品的使用与业务运营分析。
l 异常检测:主要针对错误率与可用性问题,可及时发现产品使用的异常,比如是否检测出不合理费用,比如 OSS 面临的外网访问流量盗刷、低频与归档型的异常频繁取回、提前删除存储类型等问题。我们内置了 policy 规则库,可针对以上情况进行告警。
l 安全分析:通过加密权限阻止恶意访问,避免出现性能不当等数据安全情况。
l 性能监控:性能指标如何监控及时预警,不同产品所关心的性能指标、获取能力均有所不同。
l 数据保护:可以查看数据保护情况,帮助用户获取数据保护建议,并引导其操作,比如通过 hbr 跳转开启数据保护功能。
目前,Alibaba Cloud Lens已经能够提供存储类、网络类、数据库类的云产品运维管理能力,已经发布了 8 款产品,存储类包含对象存储 OSS 、块存储EBS 、日志存储 SLS ;网络类包含负载均衡 ALB 与 CLB ;数据库类包含Redis 、PolarDB与RDS。
Alibaba Cloud Lens云产品可观测平台也在规划更多主流云产品,将覆盖存储网络、数据库、安全流量、计算类等更多重点云产品的可观特性。
目前, SLS 已经接入超过 30 款主流云产品。
三、场景示例
Alibaba Cloud Lens for EBS主要针对块存储提供数据分析、资源监控的能力,可以帮助用户管理块存储资源信息以及性能监控,高效了解业务波动、资源使用与性能消耗情况,提供了性能监控、用量分析、安全分析、访问分析、异常检测与数据保护能力。
Alibaba Cloud Lens for OSS 针对对象存储 OSS 帮助用户实现资源用量的监控、访问审计、健康度分析、异常事件回溯与问题定位等工作。资源用量可以非常精细化地展示存储量、带宽等核心资源的使用情况。访问分析展示了用户使用云产品的分布情况,帮助业务做运营分析。异常检测可以通过自定义告警与内置 policy 规则库,及时发现错误率与可用性以及使用不当等风险问题。健康度分析可以及时暴露不合理的配置与高危操作。
日志服务SLS 团队联合了负载均衡团队,发布了应用型负载均衡日志中心Alibaba Cloud Lens for ALB以及传统型负载均衡日志中心Alibaba Cloud Lens for CLB ,可以为不同类型的负载均衡提供访问日志分析、秒级监控、实时告警等能力。
同时,提供了基于AIOps的自动异常巡检功能,可一键式开启 ALB 与 CLB 访问日志采集功能,集中管理日志采集状态,集中管理当前阿里云账号下所有 ALB 与 CLB 实例。基于原始访问日志,可以实时提取出各类指标信息,支持多个维度组合,提供丰富的可视化报表能力、智能巡检能力与自定义告警配置。
Alibaba Cloud Lens for Redis 基于阿里云日志服务 SLS 为用户提供了日志查询、在线分析导出等功能,帮助及时掌控产品安全与性能情况。该能力也非常有效地解决了以往客户在使用过程中时常遇到的问题,比如单实例监控无法实现全盘监控信息,缺少统一的资产管理与直观的数据分析,不具备自定义分析的查询能力。
Alibaba Cloud Lens for Redis集中统一了 Redis 实例资产,可以帮助用户轻松获取数据库运行日志、慢日志以及审计日志、监控与分析,提升 Redis 资源的管理效率与实时资源运行分析。同时,提供了更长时间段比如1-365 天的日志存储平台。
Alibaba Cloud Lens for Redis PolarDB可以轻松帮助用户洞悉百 TB 级的云原生数据库。再好的数据库产品也无法避免日志审计、性能调优、错误监控以满足安全合规、交易提速与故障响应等需求,而大部分需求都可以通过分析数据库日志得到满足。
当前,PolarDB 提供了日志审计、性能指标、慢查询日志、错误日志四种能力。然而PolarDB 内置的日志查看能力尚且无法满足以上需求,缺乏全局视图且分析能力较弱、存储时间非常短。
Alibaba Cloud Lens for PolarDB是联合了日志服务团队与PolarDB 团队发布的一款PolarDB 数据运营应用,其主要功能包括实现全局PolarDB 实例的资产视图,帮助用户一键了解全部资产,方便配置数据库审计日志、性能指标慢日志以及错误日志监控与分析。
依托于SLS 平台的基础能力,PolarDB 用户可以轻松自定义 SQL 来做 SQL 查询、关联查询,且内置了报表,帮助用户基于安全、性能与监控来了解业务需求。
Alibaba Cloud Lens for RDS 可以实时查看 RDS 审计日志、采集状态,可以集中管理采集配置,并基于采集到的日志进行后续审计、分析与告警等一系列操作。
四、售卖与支持
上图为Alibaba Cloud Lens在存储、网络、安全、数据库与流量类的计费说明,更多内容可点击以下链接获取。
Alibaba Cloud Lens 云产品可观测系列产品:
存储类
网络类:
数据库类: