《2021 阿里云可观测技术峰会演讲实录合辑(上)》——六、 云原生可观测体验设计实践

简介: 《2021 阿里云可观测技术峰会演讲实录合辑(上)》——六、 云原生可观测体验设计实践

作者:周月侨


image.png

可观测的概念起源于几十年前的控制理论,随着各种系统越来越复杂,可观测性和相应的体验也越来越受到重视。典型的例子是汽车行业的发展,动力系统、能源和驾驶方式都在发生变化,驾驶员要感知和掌控的也随之变化。因此汽车的人机界面体验设计成为了热门的研究方向。

 

在IT领域,在当下的云原生时代,系统架构更加复杂,研发团队融入了可观测性的理念,开发者写出的应用都是可观测的,包括告警、监控、日志、链路追踪、自动排障、预测等。那么,如何设计好的可观测体验?


image.png

基于阿里云产品的设计实践,可以总结出四个可观测体验的设计原则。

第一,提供当前所需的最小必要信息。这意味着克制,避免信息轰炸,不能因为能够获取到就向用户展示全部数据。要帮助用户对信息进行分层、聚类、排序,让用户快速锁定洞察,然后逐层深入。


 image.png

第二,运用色彩强化业务语义与异常。色彩的运用在可观测体验中非常重要,它不仅是为了让界面好看,更应该用来诠释业务状态,强化异常感知。例如同一个数据系列不应该是五彩斑斓的,但异常状态应该用红色进行强调。

image.png

第三,对话式的探索。好的可观测体验中,用户能够与系统对话,一步一步挖掘根因直至解决问题。比如有红色的error标签,仿佛在说:看,这里是一个异常。那么,它旁边的主行动点就应该是建议查看日志。此时,点击按钮就好像在回复:好,接下来跳转到日志。进入日志后发现有一处高亮,这也是在吸引用户注意,似乎在说:重点看看这段日志。这其中包含的体验要素非常多,需要设计合理的路径,并引导用户,及时提供洞察、建议、反馈等。

 image.png

第四,确保一致体验。体验一致性是管控台体验设计中最重要的原则之一。对于用户而言,体验一致可以降低学习成本,降低操作时长和错误率,提升满意度;对于产品的设计和开发者而言,体验一致可以提效,稳定性也更有保障。

image.png

以阿里云应用实时监控服务ARMS Trace Explorer为例,它存储了全量的应用调用链路明细数据,但是用户并不需要直接看到这些最底层的明细数据,他们只关心应用是否健康以及问题出在哪里。所以Trace Explorer第一个视图的最小必要信息是统计图表、排序列表以及筛选器。用颜色来区分正常和异常,并在筛选器和筛选的结果中保持一致的样式。

image.png

假设接到接口耗时长的报警,需要检查哪些接口慢以及它们为什么慢,首先需要检查慢接口的分布,选择最近一小时,按接口聚合,结果如上图。图中不同颜色代表不同接口,可以发现调用耗时大于3秒钟的集中在两个接口上,非常直观。


image.png

然后排查接口慢的原因,查看具体调用链路,点击plan可以看到更多详情信息,比如指标、日志等。无论是从外面进入详情,还是在里面查看详情,详情页面都是点击后从右侧推出,在查看详情的交互上保持一致,操作流畅。


image.png


然后找到最慢的一条查看线程剖析,定位到行级代码,最终发现根因,解决问题。

 

整个排查过程的体验非常顺畅,因为对信息的分层合理,方便聚焦,探索路径和引导方式也符合认知,清晰易操作。

image.png

上述案例只是可观测体验的冰山一角。结合数据采集、管理、观测、处理全生命周期来整理与可观测体验相关的重点业务场景非常多,比如流量应用的接入、数据迁移、传输备份、链路追踪、攻击溯源、架构感知、故障演练、多活容灾等。

 

于是,我们构建了一套体系化的可观测体验设计能力来支撑各类业务场景。这些设计能力包含数据色板、基础图表、基础规则和场景化的体验范式,封装为阿里云的规范组件以及Grafana阿里云主题和插件,希望能够提供覆盖DevSecOps全流程的最佳体验设计实践,帮助开发者全面提升业务可观测体验。这套设计能力+工程化的能力构成了阿里云可观测体验设计体系ObservableX,目前正在建设中。

 image.png

ObservableX从近百款阿里云产品的可观测体验设计中产生,与其他市面上的图表不同的是,它具有强业务属性,比如在数据色彩方面,提供基础色、顺序色、发散色、渐变色,适合图表、大盘、编排、二维、三维、拓扑等复杂数据系列的配色方案;同时优化了色彩变化的感知均匀度,观感更好;在基础图表和规则方面比普通的图表库更加细致。

 

除了图表构成轴规范、通用的交互规范,还有阈值维稳区间与拖拽型时间轴的联动交互,根据图表场景和数据的业务语义细化使用规则。

 

ObservableX的精华在于业务体验范式,其中的应用指标图表、系统指标图表、可视化的前置检测、数据传输、任务管理、二维三维、架构拓扑、消息轨迹、防护策略、编排等都是经过打磨且被验证的解决方案。


image.png


以应用黄金三指标三联图表为例,首先可以看到,范式有详细的构成说明,请求数、错误数、延时、交互时的数据联动规则等,三个图表可以方便地切换统计方式。针对延时,可以根据排查需要切换绝对值或分布比例,分布图中会显示关键的参考信息,可以放大查看更详细的数据、对比历史数据等。

 

因此,ObservableX的体验范式具有强业务属性,直接使用即可获得较好的可观测体验。


image.png


因为云原生的架构、资产的分布和内部资源消耗等天然就是三维的结构,所以ObservableX的体验范式也涵盖了很多管控升维的设计,还原真实的架构,高度可视化,信息更全面,洞察也更直观。


image.png


比如容器监控,我们提供了业务层到资源层全链路的可视化监控,支持从二维的应用拓扑下钻排查到资源层的问题,展开3D全景,全屏排障。


 image.png


上图为云安全中心云资产全景图,帮助用户感知网络安全风险和安全问题。下钻能够查看资产的防护关系和风险溯源,直观定位风险来源和影响,还能为用户提供针对性的智能防护建议。

 

ObservableX设计体系不仅面向设计师,其强业务属性也注定希望能够帮助开发运维、安全运营等各类角色发现问题并及时解决问题,预防问题的发生,提升DevSecOps的体验,这也是探索可观测体验设计的意义。

 

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
4月前
|
监控 Cloud Native Java
Quarkus 云原生Java框架技术详解与实践指南
本文档全面介绍 Quarkus 框架的核心概念、架构特性和实践应用。作为新一代的云原生 Java 框架,Quarkus 旨在为 OpenJDK HotSpot 和 GraalVM 量身定制,显著提升 Java 在容器化环境中的运行效率。本文将深入探讨其响应式编程模型、原生编译能力、扩展机制以及与微服务架构的深度集成,帮助开发者构建高效、轻量的云原生应用。
559 44
|
5月前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
国诚投顾携手阿里云,依托Serverless架构实现技术全面升级,构建高弹性、智能化技术底座,提升业务稳定性与运行效率。通过云原生API网关、微服务治理与智能监控,实现流量精细化管理与系统可观测性增强,打造安全、敏捷的智能投顾平台,助力行业数字化变革。
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
|
5月前
|
运维 监控 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
|
3月前
|
Kubernetes Cloud Native 云计算
云计算与云原生技术探索
🌟蒋星熠Jaxonic,云原生探索者!以代码为舟,遨游技术星河。专注容器化、微服务、K8s与DevOps,践行GitOps理念,拥抱多云未来。用架构编织星辰,让创新照亮极客征途!
云计算与云原生技术探索
|
3月前
|
Java Linux 虚拟化
【Docker】(1)Docker的概述与架构,手把手带你安装Docker,云原生路上不可缺少的一门技术!
1. Docker简介 1.1 Docker是什么 为什么docker会出现? 假定您在开发一款平台项目,您的开发环境具有特定的配置。其他开发人员身处的环境配置也各有不同。 您正在开发的应用依赖于您当前的配置且还要依赖于某些配置文件。 您的企业还拥有标准化的测试和生产环境,且具有自身的配置和一系列支持文件。 **要求:**希望尽可能多在本地模拟这些环境而不产生重新创建服务器环境的开销 问题: 要如何确保应用能够在这些环境中运行和通过质量检测? 在部署过程中不出现令人头疼的版本、配置问题 无需重新编写代码和进行故障修复
417 2
|
3月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
275 7
|
5月前
|
弹性计算 运维 Cloud Native
【云故事探索】NO.17:国诚投顾的云原生Serverless实践
简介: 通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
167 1
|
4月前
|
存储 弹性计算 Cloud Native
云原生数据库的演进与应用实践
随着企业业务扩展,传统数据库难以应对高并发与弹性需求。云原生数据库应运而生,具备计算存储分离、弹性伸缩、高可用等核心特性,广泛应用于电商、金融、物联网等场景。阿里云PolarDB、Lindorm等产品已形成完善生态,助力企业高效处理数据。未来,AI驱动、Serverless与多云兼容将推动其进一步发展。
249 8
|
5月前
|
消息中间件 人工智能 监控
【云故事探索 | NO.15】:阿里云云原生加速鸣鸣很忙数字化
【云故事探索 | NO.15】:阿里云云原生加速鸣鸣很忙数字化
|
6月前
|
Cloud Native 中间件 调度
云原生信息提取系统:容器化流程与CI/CD集成实践
本文介绍如何通过工程化手段解决数据提取任务中的稳定性与部署难题。结合 Scrapy、Docker、代理中间件与 CI/CD 工具,构建可自动运行、持续迭代的云原生信息提取系统,实现结构化数据采集与标准化交付。
208 1
云原生信息提取系统:容器化流程与CI/CD集成实践