《2021 阿里云可观测技术峰会演讲实录合辑(上)》——六、 云原生可观测体验设计实践

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 《2021 阿里云可观测技术峰会演讲实录合辑(上)》——六、 云原生可观测体验设计实践

作者:周月侨


image.png

可观测的概念起源于几十年前的控制理论,随着各种系统越来越复杂,可观测性和相应的体验也越来越受到重视。典型的例子是汽车行业的发展,动力系统、能源和驾驶方式都在发生变化,驾驶员要感知和掌控的也随之变化。因此汽车的人机界面体验设计成为了热门的研究方向。

 

在IT领域,在当下的云原生时代,系统架构更加复杂,研发团队融入了可观测性的理念,开发者写出的应用都是可观测的,包括告警、监控、日志、链路追踪、自动排障、预测等。那么,如何设计好的可观测体验?


image.png

基于阿里云产品的设计实践,可以总结出四个可观测体验的设计原则。

第一,提供当前所需的最小必要信息。这意味着克制,避免信息轰炸,不能因为能够获取到就向用户展示全部数据。要帮助用户对信息进行分层、聚类、排序,让用户快速锁定洞察,然后逐层深入。


 image.png

第二,运用色彩强化业务语义与异常。色彩的运用在可观测体验中非常重要,它不仅是为了让界面好看,更应该用来诠释业务状态,强化异常感知。例如同一个数据系列不应该是五彩斑斓的,但异常状态应该用红色进行强调。

image.png

第三,对话式的探索。好的可观测体验中,用户能够与系统对话,一步一步挖掘根因直至解决问题。比如有红色的error标签,仿佛在说:看,这里是一个异常。那么,它旁边的主行动点就应该是建议查看日志。此时,点击按钮就好像在回复:好,接下来跳转到日志。进入日志后发现有一处高亮,这也是在吸引用户注意,似乎在说:重点看看这段日志。这其中包含的体验要素非常多,需要设计合理的路径,并引导用户,及时提供洞察、建议、反馈等。

 image.png

第四,确保一致体验。体验一致性是管控台体验设计中最重要的原则之一。对于用户而言,体验一致可以降低学习成本,降低操作时长和错误率,提升满意度;对于产品的设计和开发者而言,体验一致可以提效,稳定性也更有保障。

image.png

以阿里云应用实时监控服务ARMS Trace Explorer为例,它存储了全量的应用调用链路明细数据,但是用户并不需要直接看到这些最底层的明细数据,他们只关心应用是否健康以及问题出在哪里。所以Trace Explorer第一个视图的最小必要信息是统计图表、排序列表以及筛选器。用颜色来区分正常和异常,并在筛选器和筛选的结果中保持一致的样式。

image.png

假设接到接口耗时长的报警,需要检查哪些接口慢以及它们为什么慢,首先需要检查慢接口的分布,选择最近一小时,按接口聚合,结果如上图。图中不同颜色代表不同接口,可以发现调用耗时大于3秒钟的集中在两个接口上,非常直观。


image.png

然后排查接口慢的原因,查看具体调用链路,点击plan可以看到更多详情信息,比如指标、日志等。无论是从外面进入详情,还是在里面查看详情,详情页面都是点击后从右侧推出,在查看详情的交互上保持一致,操作流畅。


image.png


然后找到最慢的一条查看线程剖析,定位到行级代码,最终发现根因,解决问题。

 

整个排查过程的体验非常顺畅,因为对信息的分层合理,方便聚焦,探索路径和引导方式也符合认知,清晰易操作。

image.png

上述案例只是可观测体验的冰山一角。结合数据采集、管理、观测、处理全生命周期来整理与可观测体验相关的重点业务场景非常多,比如流量应用的接入、数据迁移、传输备份、链路追踪、攻击溯源、架构感知、故障演练、多活容灾等。

 

于是,我们构建了一套体系化的可观测体验设计能力来支撑各类业务场景。这些设计能力包含数据色板、基础图表、基础规则和场景化的体验范式,封装为阿里云的规范组件以及Grafana阿里云主题和插件,希望能够提供覆盖DevSecOps全流程的最佳体验设计实践,帮助开发者全面提升业务可观测体验。这套设计能力+工程化的能力构成了阿里云可观测体验设计体系ObservableX,目前正在建设中。

 image.png

ObservableX从近百款阿里云产品的可观测体验设计中产生,与其他市面上的图表不同的是,它具有强业务属性,比如在数据色彩方面,提供基础色、顺序色、发散色、渐变色,适合图表、大盘、编排、二维、三维、拓扑等复杂数据系列的配色方案;同时优化了色彩变化的感知均匀度,观感更好;在基础图表和规则方面比普通的图表库更加细致。

 

除了图表构成轴规范、通用的交互规范,还有阈值维稳区间与拖拽型时间轴的联动交互,根据图表场景和数据的业务语义细化使用规则。

 

ObservableX的精华在于业务体验范式,其中的应用指标图表、系统指标图表、可视化的前置检测、数据传输、任务管理、二维三维、架构拓扑、消息轨迹、防护策略、编排等都是经过打磨且被验证的解决方案。


image.png


以应用黄金三指标三联图表为例,首先可以看到,范式有详细的构成说明,请求数、错误数、延时、交互时的数据联动规则等,三个图表可以方便地切换统计方式。针对延时,可以根据排查需要切换绝对值或分布比例,分布图中会显示关键的参考信息,可以放大查看更详细的数据、对比历史数据等。

 

因此,ObservableX的体验范式具有强业务属性,直接使用即可获得较好的可观测体验。


image.png


因为云原生的架构、资产的分布和内部资源消耗等天然就是三维的结构,所以ObservableX的体验范式也涵盖了很多管控升维的设计,还原真实的架构,高度可视化,信息更全面,洞察也更直观。


image.png


比如容器监控,我们提供了业务层到资源层全链路的可视化监控,支持从二维的应用拓扑下钻排查到资源层的问题,展开3D全景,全屏排障。


 image.png


上图为云安全中心云资产全景图,帮助用户感知网络安全风险和安全问题。下钻能够查看资产的防护关系和风险溯源,直观定位风险来源和影响,还能为用户提供针对性的智能防护建议。

 

ObservableX设计体系不仅面向设计师,其强业务属性也注定希望能够帮助开发运维、安全运营等各类角色发现问题并及时解决问题,预防问题的发生,提升DevSecOps的体验,这也是探索可观测体验设计的意义。

 

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
21天前
|
Cloud Native 持续交付 开发者
云原生技术在现代企业中的应用与实践####
本文深入探讨了云原生技术的核心概念及其在现代企业IT架构转型中的关键作用,通过具体案例分析展示了云原生如何促进企业的敏捷开发、高效运维及成本优化。不同于传统摘要仅概述内容,本部分旨在激发读者对云原生领域的兴趣,强调其在加速数字化转型过程中的不可或缺性,为后续详细论述奠定基础。 ####
|
12天前
|
Cloud Native 安全 Java
铭师堂的云原生升级实践
铭师堂完整经历了云计算应用的四个关键阶段:从”启动上云”到”全量上云”,再到”全栈用云”,最终达到”精益用云”。通过 MSE 云原生网关的落地,为我们的组织带来了诸多收益,SLA 提升至100%,财务成本降低67%,算力成本降低75%,每次请求 RT 减少5ms。
铭师堂的云原生升级实践
|
17天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
10天前
|
Cloud Native 安全 Java
杭州铭师堂的云原生升级实践
在短短 2-3 年间,杭州铭师堂完整经历了云计算应用的四个关键阶段:从“启动上云”到“全量上云”,再到“全栈用云”,最终达到“精益用云”。也从云计算的第一次浪潮,迈过了第二次浪潮,顺利的进入到了 第三次浪潮 AI + 云。
|
11天前
|
Cloud Native
邀您参加云原生高可用技术沙龙丨云上高可用体系构建:从理论到实践
云原生高可用技术专场,邀您从理论到实践一起交流,探索云上高可用体系构建!
|
17天前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,智算时代云原生操作系统
2024云栖大会,阿里巴巴研究员易立分享了阿里云容器服务的最新进展。容器技术已成为云原生操作系统的基石,支持多样化的应用场景,如自动驾驶、AI训练等。阿里云容器服务覆盖公共云、边缘云、IDC,提供统一的基础设施,助力客户实现数字化转型和技术创新。今年,阿里云在弹性计算、网络优化、存储解决方案等方面进行了多项重要升级,进一步提升了性能和可靠性。
|
19天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 11 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
21天前
|
运维 Cloud Native 持续交付
云原生技术深度探索:重塑现代IT架构的无形之力####
本文深入剖析了云原生技术的核心概念、关键技术组件及其对现代IT架构变革的深远影响。通过实例解析,揭示云原生如何促进企业实现敏捷开发、弹性伸缩与成本优化,为数字化转型提供强有力的技术支撑。不同于传统综述,本摘要直接聚焦于云原生技术的价值本质,旨在为读者构建一个宏观且具体的技术蓝图。 ####
|
21天前
|
Cloud Native API 持续交付
云原生架构下的微服务治理策略与实践####
本文旨在探讨云原生环境下微服务架构的治理策略,通过分析当前面临的挑战,提出一系列实用的解决方案。我们将深入讨论如何利用容器化、服务网格(Service Mesh)等先进技术手段,提升微服务系统的可管理性、可扩展性和容错能力。此外,还将分享一些来自一线项目的经验教训,帮助读者更好地理解和应用这些理论到实际工作中去。 ####
36 0
|
24天前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。