对话阿里云云原生产品负责人李国强:推进可观测产品与OpenTelemetry开源生态全面融合

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 阿里云宣布多款可观测产品全面升级,其中,应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?阿里云云原生应用平台产品负责人李国强接受采访解答了这些疑问,点击本文走进全新升级的阿里云可观测产品。

5 月 22 日,在最新一期的飞天发布时刻上,阿里云宣布多款可观测产品全面升级,其中一项是应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。


本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?飞天发布时刻在第一时间采访了阿里云云原生应用平台产品负责人李国强,让我们跟随这场访谈实录,走进全新升级的阿里云可观测产品。

阿里云本次重磅发布应用实时监控服务 ARMS 进行了全面的能力升级,为什么要做这样的演进?这背后希望传递给大家什么样的信息?


李国强:这是一个非常好的问题,借此我也和大家分享一下 ARMS 产品演进的一些方向和策略。ARMS 是应用性能监控领域的产品,在整个应用架构随着市场需求变化的不断演进下,它自然地会随之发生一些变化。


比如像前两年云原生应用、以及这几年大模型应用的出现,应用架构一直在演进。作为一个应用性能监控产品,同样要不断去迭代自己的功能,持续对新类型应用提供性能监控能力。帮助企业将应用架构性能与稳定性做好,这是为什么 ARMS 不断的进行演进、支持新能力的原因。


在最新的发布的能力中,有两大块能力也是完全契合新的应用类型与架构变化的。


第一是整个端侧应用的能力提升。随着移动互联网走进千行百业,大家用手机端去做事情的场景会越来越多,频次也会高一些,这时候端侧的性能监控就变得越来越重要。因为很多时候用户发现性能出了问题,作为一个厂商去诊断的时候,如果只看后端的监控性能,是不能够找到这个问题的根因的。


通过 ARMS,我们对用户体验监控(RUM)能力进行提升,去帮助企业解决这方面问题,它有几个重要的演进特征:


  • 第一个,就是对多端的支持。像 iOS、安卓、小程序,包括 React 等一些新的技术,使端侧类型变得非常的多。那怎么能够在一个产品里面支持所有客户端类型,对于企业来讲是非常关键的。
  • 第二个,就是现在用户对体验要求越来越高之后,对于企业来讲,也需要能够精细化的定位每个用户的请求是不是出问题。所以在最新的能力中,我们支持了以会话 Session 为粒度的可观测分析能力,使企业出现问题时能快速进行根因定位。
  • 第三个,就是在应用监控这块,我们拥抱了 OpenTelemetry 这样一个开源的标准,前面我们讲到今天客户端的类型非常丰富,各种各样的数据的采集方式和数据的格式,我们借助开源的力量,实现真正的统一。当我们基于这种统一的采集方式、数据格式的时候,会更快的构建出一个可观测体系,这对企业也是非常关键的。
  • 第四个,是如何对客户端的性能进行深度分析诊断,这也是非常关键的。包括会话的分析、页面的分析、资源的分析、异常分析等等,这些都是用户快速去发现端侧问题需要关注的地方。


另外是在应用监控即后端应用方面,刚才讲到了近几年随着微服务的兴起、云原生应用、大模型应用的不断出现,也催生了应用监控能力不断的提升,包括近年来在开源体系的支撑之下,我们原有的自研探针也升级到了以 OpenTelemetry 作为基础的探针模式。


这样使得我们能够更好的去借助整个开源社区的力量,在这之上还能再去做更强的自研能力的增强,使用户一方面可以去拥抱开源这样一个体系,另一方面还能得到我们一些产品上的加持。


第二个就是对多语言的能力支持。因为今天企业的应用类型越来越复杂了,它有原有的、老的应用类型,也有新兴的互联网的、手机的、大模型的应用,必然会导致语言类型多。之前我们有一个调研,结论是大部分的后端应用都是以 Java 为主,但这两年我们发现一个非常明显的趋势:互联网公司开始越来越多地用 Go 语言,大语言模型越来越多地用 Python 这个语言。


所以在最新的能力里面,我们除了持续加强对 Java 语言的支持之外,还增加了对 Go 语言和 Python 语言的无侵入的支持能力,使得用户再去构建云原生应用、大模型应用的时候也能够以无侵入的方式获得监控的能力。


第三个增强就是持续的剖析能力,Continuous profiling。这也是今天去做一些精细化的问题诊断时需要的,它能够在整个应用程序里形成一个切面,找到某一个问题出现时 CPU、内存等的一些特征,这对用户诊断一些比较复杂的问题的时候也是非常关键的。


另外,刚才也讲到近来大模型应用非常的火,其实从去年开始已经有非常多企业在用大模型构建应用了。大模型的应用架构其实和原有的应用架构也是不太一样的,它里面有比较多的像对检索增强的调用、对大模型本身的调用,这些调用在监控里是有特殊的数据格式和语义的。


在 ARMS 里面我们也最新推出了针对大模型应用的可观测能力,对用户是否为大模型调用的场景进行识别,并且给他一个专属的展示界面,使用户能够看得非常清楚,看到大模型应用是不是做了 RAG 的检索增强调用、它的响应时间、Token 量等等一系列的能力,帮助用户在构建大模型应用的时候调试及上线后的一些问题诊断等。


这些方面其实都是今天 ARMS 在面对新型的应用架构、新型的应用类型的时候推出的一系列新的能力,帮助用户持续构建好应用,同时还能不断地加强用户去精细化的诊断问题、发现问题的能力。


可观测性是云原生应用的基础。本次应用实时监控服务 ARMS 整体升级的一个主要的方向是围绕 OpenTelemetry,它带来什么重要的意义?


李国强:这也是一个非常重要的产品策略的一个演进的方向。我们明显看到近几年一个趋势,就是在可观测这个领域,开源已经成为了一个事实标准,在主导这个领域的主要的发展,包括像 Prometheus、Grafana,以及今天我们讲到 OpenTelemetry,这里的主要目标是能够让这个开源主导的技术发展得更加活跃,包括在用户使用的时候它的推广和普及性会更好。


那回到今天 ARMS 这个重要发布来看的话,这次全面拥抱 OpenTelemetry 生态的演进,有几个重要点可以和大家分享。


首先,OpenTelemetry 最核心的使用领域是 Tracing,我们前面也讲到了,在这个领域里需要做到对整个应用调用的链路进行跟踪和数据的采集,这是非常多元的。OpenTelemetry 通过定义标准的采集端和数据格式,统一了各种各样数据源的采集方式和获取数据的格式,使用户去构建一体化的可观测体系和架构的时候,变得更加简单了。这个标准化其实各个厂商有些时候是很难去实现的,只有通过开源、标准的这种方式才能去做到它。


其次,就是广泛多语言支持,前面其实我也提到了,今天企业内部的语言使用越来越广泛,OpenTelemetry 作为一个非常活跃的社区,其实对多语言的支持天然是非常好的,这也是开源社区常见的一种形态,所有人大家都来贡献,那在多语言支持这件事情上肯定也比一个人做要快,所以广泛的多语言支持也是我们去看重 OpenTelemetry 社区非常重要的方面。


第三个就是活跃的社区生态,除了我们刚才讲的对多语言的支持,在可观测里面还有一个多样性,就是框架的多样性。同样的,这通过活跃的社区生态是也是更好、更容易支持的,社区往往在设计架构之初就会考虑到扩展性,因为它需要去更多的人贡献,那这个扩展性也非常利于云厂商在开源能力之上去做一些增强。


基于 OpenTelemetry 这样一个标准,ARMS 也在这之上做了非常多自研能力的增强,包括指标采集、采集率的调整等等,这样一些能力使得用户既能够享受到开源社区的能力,不被厂商绑定,同时又能享受到云厂商在这上做的各种各样能力的增强,这些原因是我们今天去选择去拥抱开源以及去拥抱 OpenTelemetry 的最核心。包括我们希望去借助这种 OpenTelemetry 这样一个能力能够帮助用户可以更加便捷快速地构建起整个可观测的体系。


本次 ARMS 也带来免费试用额度,登录阿里云官网 “aliyun.com” 搜索应用实时监控 ARMS,或者点击此处,即可获取免费试用资源。

相关文章
|
9天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2024 年 05 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
9天前
|
弹性计算 Prometheus 监控
阿里云可观测 2024 年 5 月产品动态
阿里云可观测 2024 年 5 月产品动态。
|
3天前
|
Kubernetes Cloud Native 开发者
阿里云网络发布 alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
**阿里云发布开源版ALB控制器v1.2.0,对齐商业版ALB Ingress Controller v2.10.0。新版本增强了功能特性,提升了用户体验,并提供了最佳实践。功能更新包括自定义标签、QUIC协议支持、转发规则和安全策略等。此外,还引入了ReadinessGate实现滚动升级时的平滑上线和Prestop钩子确保平滑下线。用户可从GitHub获取开源代码,通过Docker Hub拉取镜像,开始使用alibaba-load-balancer-controller v1.2.0。**
41 3
阿里云网络发布 alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
|
9天前
|
API
阿里云微服务引擎及 API 网关 2024 年 5 月产品动态
阿里云微服务引擎及 API 网关 2024 年 5 月产品动态。
阿里云微服务引擎及 API 网关 2024 年 5 月产品动态
|
2天前
|
人工智能 运维 Cloud Native
云端融合:探索云原生技术的未来趋势
【6月更文挑战第19天】 在数字化时代的浪潮中,云原生技术如同一颗耀眼的星辰,引领着软件开发和运维的新方向。本文将深入探讨云原生技术的核心概念、优势以及面临的挑战,并通过案例分析展现其在实际应用中的成效。我们将一窥云原生技术如何推动企业IT架构的现代化转型,以及它在未来可能带来的行业变革。
|
1天前
|
SQL 运维 Serverless
阿里云 EMR StarRocks VS 开源版本功能差异介绍
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章重点介绍阿里云 EMR StarRocks 与开源 StarRocks 的对比与客户案例。
18 1
|
1天前
|
存储 弹性计算 安全
构建高效企业应用架构:阿里云产品组合实践深度解析
该方案展现了阿里云产品组合的强大能力和灵活性,不仅满足了当前业务需求,也为未来的扩展打下了坚实的基础。希望本文的分享能为读者在设计自己的IT解决方案时提供一定的参考和启发。
14 1
|
1天前
|
Kubernetes Cloud Native 开发者
阿里云网络发布云原生网关 alibaba-load-balancer-controller v1.2.0,持续拥抱开源生态
alibaba-load-balancer-controller开源版本正式推出v1.2.0,能力对齐ALB Ingress Controller商业版v2.10.0。
|
5天前
|
SQL 弹性计算 API
云服务器 ECS产品使用问题之如何通过API调用阿里云服务器上SQL Server数据库中的数据
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
11天前
|
人工智能 大数据 网络虚拟化
引领开放 阿里云持续推动开源生态发展
阿里云基础设施网络承办了“SONiC技术与应用分论坛“暨”第二届SONiC社区中国区分论坛“,携手国内外行业精英,分享了围绕SONiC的实践和创新