《2021 阿里云可观测技术峰会演讲实录合辑(上)》——六、 云原生可观测体验设计实践

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 《2021 阿里云可观测技术峰会演讲实录合辑(上)》——六、 云原生可观测体验设计实践

作者:周月侨


image.png

可观测的概念起源于几十年前的控制理论,随着各种系统越来越复杂,可观测性和相应的体验也越来越受到重视。典型的例子是汽车行业的发展,动力系统、能源和驾驶方式都在发生变化,驾驶员要感知和掌控的也随之变化。因此汽车的人机界面体验设计成为了热门的研究方向。

 

在IT领域,在当下的云原生时代,系统架构更加复杂,研发团队融入了可观测性的理念,开发者写出的应用都是可观测的,包括告警、监控、日志、链路追踪、自动排障、预测等。那么,如何设计好的可观测体验?


image.png

基于阿里云产品的设计实践,可以总结出四个可观测体验的设计原则。

第一,提供当前所需的最小必要信息。这意味着克制,避免信息轰炸,不能因为能够获取到就向用户展示全部数据。要帮助用户对信息进行分层、聚类、排序,让用户快速锁定洞察,然后逐层深入。


 image.png

第二,运用色彩强化业务语义与异常。色彩的运用在可观测体验中非常重要,它不仅是为了让界面好看,更应该用来诠释业务状态,强化异常感知。例如同一个数据系列不应该是五彩斑斓的,但异常状态应该用红色进行强调。

image.png

第三,对话式的探索。好的可观测体验中,用户能够与系统对话,一步一步挖掘根因直至解决问题。比如有红色的error标签,仿佛在说:看,这里是一个异常。那么,它旁边的主行动点就应该是建议查看日志。此时,点击按钮就好像在回复:好,接下来跳转到日志。进入日志后发现有一处高亮,这也是在吸引用户注意,似乎在说:重点看看这段日志。这其中包含的体验要素非常多,需要设计合理的路径,并引导用户,及时提供洞察、建议、反馈等。

 image.png

第四,确保一致体验。体验一致性是管控台体验设计中最重要的原则之一。对于用户而言,体验一致可以降低学习成本,降低操作时长和错误率,提升满意度;对于产品的设计和开发者而言,体验一致可以提效,稳定性也更有保障。

image.png

以阿里云应用实时监控服务ARMS Trace Explorer为例,它存储了全量的应用调用链路明细数据,但是用户并不需要直接看到这些最底层的明细数据,他们只关心应用是否健康以及问题出在哪里。所以Trace Explorer第一个视图的最小必要信息是统计图表、排序列表以及筛选器。用颜色来区分正常和异常,并在筛选器和筛选的结果中保持一致的样式。

image.png

假设接到接口耗时长的报警,需要检查哪些接口慢以及它们为什么慢,首先需要检查慢接口的分布,选择最近一小时,按接口聚合,结果如上图。图中不同颜色代表不同接口,可以发现调用耗时大于3秒钟的集中在两个接口上,非常直观。


image.png

然后排查接口慢的原因,查看具体调用链路,点击plan可以看到更多详情信息,比如指标、日志等。无论是从外面进入详情,还是在里面查看详情,详情页面都是点击后从右侧推出,在查看详情的交互上保持一致,操作流畅。


image.png


然后找到最慢的一条查看线程剖析,定位到行级代码,最终发现根因,解决问题。

 

整个排查过程的体验非常顺畅,因为对信息的分层合理,方便聚焦,探索路径和引导方式也符合认知,清晰易操作。

image.png

上述案例只是可观测体验的冰山一角。结合数据采集、管理、观测、处理全生命周期来整理与可观测体验相关的重点业务场景非常多,比如流量应用的接入、数据迁移、传输备份、链路追踪、攻击溯源、架构感知、故障演练、多活容灾等。

 

于是,我们构建了一套体系化的可观测体验设计能力来支撑各类业务场景。这些设计能力包含数据色板、基础图表、基础规则和场景化的体验范式,封装为阿里云的规范组件以及Grafana阿里云主题和插件,希望能够提供覆盖DevSecOps全流程的最佳体验设计实践,帮助开发者全面提升业务可观测体验。这套设计能力+工程化的能力构成了阿里云可观测体验设计体系ObservableX,目前正在建设中。

 image.png

ObservableX从近百款阿里云产品的可观测体验设计中产生,与其他市面上的图表不同的是,它具有强业务属性,比如在数据色彩方面,提供基础色、顺序色、发散色、渐变色,适合图表、大盘、编排、二维、三维、拓扑等复杂数据系列的配色方案;同时优化了色彩变化的感知均匀度,观感更好;在基础图表和规则方面比普通的图表库更加细致。

 

除了图表构成轴规范、通用的交互规范,还有阈值维稳区间与拖拽型时间轴的联动交互,根据图表场景和数据的业务语义细化使用规则。

 

ObservableX的精华在于业务体验范式,其中的应用指标图表、系统指标图表、可视化的前置检测、数据传输、任务管理、二维三维、架构拓扑、消息轨迹、防护策略、编排等都是经过打磨且被验证的解决方案。


image.png


以应用黄金三指标三联图表为例,首先可以看到,范式有详细的构成说明,请求数、错误数、延时、交互时的数据联动规则等,三个图表可以方便地切换统计方式。针对延时,可以根据排查需要切换绝对值或分布比例,分布图中会显示关键的参考信息,可以放大查看更详细的数据、对比历史数据等。

 

因此,ObservableX的体验范式具有强业务属性,直接使用即可获得较好的可观测体验。


image.png


因为云原生的架构、资产的分布和内部资源消耗等天然就是三维的结构,所以ObservableX的体验范式也涵盖了很多管控升维的设计,还原真实的架构,高度可视化,信息更全面,洞察也更直观。


image.png


比如容器监控,我们提供了业务层到资源层全链路的可视化监控,支持从二维的应用拓扑下钻排查到资源层的问题,展开3D全景,全屏排障。


 image.png


上图为云安全中心云资产全景图,帮助用户感知网络安全风险和安全问题。下钻能够查看资产的防护关系和风险溯源,直观定位风险来源和影响,还能为用户提供针对性的智能防护建议。

 

ObservableX设计体系不仅面向设计师,其强业务属性也注定希望能够帮助开发运维、安全运营等各类角色发现问题并及时解决问题,预防问题的发生,提升DevSecOps的体验,这也是探索可观测体验设计的意义。

 

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
11天前
|
人工智能 监控 Cloud Native
iLogtail 2.0 来了;通义灵码下载量破百万丨阿里云云原生 2 月产品月报
iLogtail 2.0 来了;通义灵码下载量破百万丨阿里云云原生 2 月产品月报
|
16天前
|
SQL 分布式计算 关系型数据库
阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践
本文以云厂商售后技术支持的角度,从客户的需求出发,对于阿里云EMR-Trino集群的选型,外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录,模拟客户已有的业务场景,满足客户需求的同时对过程中的问题点进行解决、记录和分析,包括但不限于Mysql、ODPS、Hive connector的配置,Hive、Delta及Hudi等不同表格式读取的兼容,aws s3、阿里云 oss协议访问异常的解决等。
|
22天前
|
缓存 Java API
【云原生】Spring Cloud Gateway的底层原理与实践方法探究
【云原生】Spring Cloud Gateway的底层原理与实践方法探究
|
8天前
|
Cloud Native 安全 持续交付
构建未来:云原生架构的演进与实践
【2月更文挑战第30天】 随着数字化转型的深入,企业对于信息技术的需求日益复杂化和动态化。传统的IT架构已难以满足快速迭代、灵活扩展及成本效率的双重要求。云原生技术作为解决这一矛盾的关键途径,通过容器化、微服务、持续集成/持续部署(CI/CD)等手段,实现了应用的快速开发、部署及运维。本文将探讨云原生架构的最新发展,分析其如何助力企业构建更加灵活、高效的业务系统,并结合实际案例,展示云原生转型过程中的最佳实践和面临的挑战。
|
1天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
117 1
阿里云实时计算Flink的产品化思考与实践【下】
|
7天前
|
弹性计算 网络协议 关系型数据库
网络技术基础阿里云实验——企业级云上网络构建实践
实验地址:<https://developer.aliyun.com/adc/scenario/65e54c7876324bbe9e1fb18665719179> 本文档指导在阿里云上构建跨地域的网络环境,涉及杭州和北京两个地域。任务包括创建VPC、交换机、ECS实例,配置VPC对等连接,以及设置安全组和网络ACL规则以实现特定服务间的互访。例如,允许北京的研发服务器ECS-DEV访问杭州的文件服务器ECS-FS的SSH服务,ECS-FS访问ECS-WEB01的SSH服务,ECS-WEB01访问ECS-DB01的MySQL服务,并确保ECS-WEB03对外提供HTTP服务。
|
8天前
|
供应链 安全 专有云
阿里云通过信通院面向一云多芯的专有云技术能力评测
近日,阿里云飞天企业版通过中国信息通信研究院2023年度《面向一云多芯的专有云技术能力要求》,在异构兼容能力、专有云基础能力、迁移适配能力三个方面,再一次验证了阿里云专有云一云多芯领先的技术能力。
|
15天前
|
SQL 监控 测试技术
阿里云可观测 2024 年 2 月产品动态
阿里云可观测 2024 年 2 月产品动态
|
16天前
|
云安全 人工智能 安全
|
17天前
|
弹性计算 算法 应用服务中间件
倚天使用|Nginx性能高27%,性价比1.5倍,基于阿里云倚天ECS的Web server实践
倚天710构建的ECS产品,基于云原生独立物理核、大cache,结合CIPU新架构,倚天ECS在Nginx场景下,具备强大的性能优势。相对典型x86,Http长连接场景性能收益27%,开启gzip压缩时性能收益达到74%。 同时阿里云G8y实例售价比G7实例低23%,是Web Server最佳选择。

相关产品

  • 云消息队列 MQ
  • 云消息队列 Kafka 版
  • 微服务引擎