对话阿里云云原生产品负责人李国强:推进可观测产品与OpenTelemetry开源生态全面融合

本文涉及的产品
性能测试 PTS,5000VUM额度
云原生网关 MSE Higress,422元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 阿里云宣布多款可观测产品全面升级,其中,应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?阿里云云原生应用平台产品负责人李国强接受采访解答了这些疑问,点击本文走进全新升级的阿里云可观测产品。

5 月 22 日,在最新一期的飞天发布时刻上,阿里云宣布多款可观测产品全面升级,其中一项是应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。


本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?飞天发布时刻在第一时间采访了阿里云云原生应用平台产品负责人李国强,让我们跟随这场访谈实录,走进全新升级的阿里云可观测产品。

阿里云本次重磅发布应用实时监控服务 ARMS 进行了全面的能力升级,为什么要做这样的演进?这背后希望传递给大家什么样的信息?


李国强:这是一个非常好的问题,借此我也和大家分享一下 ARMS 产品演进的一些方向和策略。ARMS 是应用性能监控领域的产品,在整个应用架构随着市场需求变化的不断演进下,它自然地会随之发生一些变化。


比如像前两年云原生应用、以及这几年大模型应用的出现,应用架构一直在演进。作为一个应用性能监控产品,同样要不断去迭代自己的功能,持续对新类型应用提供性能监控能力。帮助企业将应用架构性能与稳定性做好,这是为什么 ARMS 不断的进行演进、支持新能力的原因。


在最新的发布的能力中,有两大块能力也是完全契合新的应用类型与架构变化的。


第一是整个端侧应用的能力提升。随着移动互联网走进千行百业,大家用手机端去做事情的场景会越来越多,频次也会高一些,这时候端侧的性能监控就变得越来越重要。因为很多时候用户发现性能出了问题,作为一个厂商去诊断的时候,如果只看后端的监控性能,是不能够找到这个问题的根因的。


通过 ARMS,我们对用户体验监控(RUM)能力进行提升,去帮助企业解决这方面问题,它有几个重要的演进特征:


  • 第一个,就是对多端的支持。像 iOS、安卓、小程序,包括 React 等一些新的技术,使端侧类型变得非常的多。那怎么能够在一个产品里面支持所有客户端类型,对于企业来讲是非常关键的。
  • 第二个,就是现在用户对体验要求越来越高之后,对于企业来讲,也需要能够精细化的定位每个用户的请求是不是出问题。所以在最新的能力中,我们支持了以会话 Session 为粒度的可观测分析能力,使企业出现问题时能快速进行根因定位。
  • 第三个,就是在应用监控这块,我们拥抱了 OpenTelemetry 这样一个开源的标准,前面我们讲到今天客户端的类型非常丰富,各种各样的数据的采集方式和数据的格式,我们借助开源的力量,实现真正的统一。当我们基于这种统一的采集方式、数据格式的时候,会更快的构建出一个可观测体系,这对企业也是非常关键的。
  • 第四个,是如何对客户端的性能进行深度分析诊断,这也是非常关键的。包括会话的分析、页面的分析、资源的分析、异常分析等等,这些都是用户快速去发现端侧问题需要关注的地方。


另外是在应用监控即后端应用方面,刚才讲到了近几年随着微服务的兴起、云原生应用、大模型应用的不断出现,也催生了应用监控能力不断的提升,包括近年来在开源体系的支撑之下,我们原有的自研探针也升级到了以 OpenTelemetry 作为基础的探针模式。


这样使得我们能够更好的去借助整个开源社区的力量,在这之上还能再去做更强的自研能力的增强,使用户一方面可以去拥抱开源这样一个体系,另一方面还能得到我们一些产品上的加持。


第二个就是对多语言的能力支持。因为今天企业的应用类型越来越复杂了,它有原有的、老的应用类型,也有新兴的互联网的、手机的、大模型的应用,必然会导致语言类型多。之前我们有一个调研,结论是大部分的后端应用都是以 Java 为主,但这两年我们发现一个非常明显的趋势:互联网公司开始越来越多地用 Go 语言,大语言模型越来越多地用 Python 这个语言。


所以在最新的能力里面,我们除了持续加强对 Java 语言的支持之外,还增加了对 Go 语言和 Python 语言的无侵入的支持能力,使得用户再去构建云原生应用、大模型应用的时候也能够以无侵入的方式获得监控的能力。


第三个增强就是持续的剖析能力,Continuous profiling。这也是今天去做一些精细化的问题诊断时需要的,它能够在整个应用程序里形成一个切面,找到某一个问题出现时 CPU、内存等的一些特征,这对用户诊断一些比较复杂的问题的时候也是非常关键的。


另外,刚才也讲到近来大模型应用非常的火,其实从去年开始已经有非常多企业在用大模型构建应用了。大模型的应用架构其实和原有的应用架构也是不太一样的,它里面有比较多的像对检索增强的调用、对大模型本身的调用,这些调用在监控里是有特殊的数据格式和语义的。


在 ARMS 里面我们也最新推出了针对大模型应用的可观测能力,对用户是否为大模型调用的场景进行识别,并且给他一个专属的展示界面,使用户能够看得非常清楚,看到大模型应用是不是做了 RAG 的检索增强调用、它的响应时间、Token 量等等一系列的能力,帮助用户在构建大模型应用的时候调试及上线后的一些问题诊断等。


这些方面其实都是今天 ARMS 在面对新型的应用架构、新型的应用类型的时候推出的一系列新的能力,帮助用户持续构建好应用,同时还能不断地加强用户去精细化的诊断问题、发现问题的能力。


可观测性是云原生应用的基础。本次应用实时监控服务 ARMS 整体升级的一个主要的方向是围绕 OpenTelemetry,它带来什么重要的意义?


李国强:这也是一个非常重要的产品策略的一个演进的方向。我们明显看到近几年一个趋势,就是在可观测这个领域,开源已经成为了一个事实标准,在主导这个领域的主要的发展,包括像 Prometheus、Grafana,以及今天我们讲到 OpenTelemetry,这里的主要目标是能够让这个开源主导的技术发展得更加活跃,包括在用户使用的时候它的推广和普及性会更好。


那回到今天 ARMS 这个重要发布来看的话,这次全面拥抱 OpenTelemetry 生态的演进,有几个重要点可以和大家分享。


首先,OpenTelemetry 最核心的使用领域是 Tracing,我们前面也讲到了,在这个领域里需要做到对整个应用调用的链路进行跟踪和数据的采集,这是非常多元的。OpenTelemetry 通过定义标准的采集端和数据格式,统一了各种各样数据源的采集方式和获取数据的格式,使用户去构建一体化的可观测体系和架构的时候,变得更加简单了。这个标准化其实各个厂商有些时候是很难去实现的,只有通过开源、标准的这种方式才能去做到它。


其次,就是广泛多语言支持,前面其实我也提到了,今天企业内部的语言使用越来越广泛,OpenTelemetry 作为一个非常活跃的社区,其实对多语言的支持天然是非常好的,这也是开源社区常见的一种形态,所有人大家都来贡献,那在多语言支持这件事情上肯定也比一个人做要快,所以广泛的多语言支持也是我们去看重 OpenTelemetry 社区非常重要的方面。


第三个就是活跃的社区生态,除了我们刚才讲的对多语言的支持,在可观测里面还有一个多样性,就是框架的多样性。同样的,这通过活跃的社区生态是也是更好、更容易支持的,社区往往在设计架构之初就会考虑到扩展性,因为它需要去更多的人贡献,那这个扩展性也非常利于云厂商在开源能力之上去做一些增强。


基于 OpenTelemetry 这样一个标准,ARMS 也在这之上做了非常多自研能力的增强,包括指标采集、采集率的调整等等,这样一些能力使得用户既能够享受到开源社区的能力,不被厂商绑定,同时又能享受到云厂商在这上做的各种各样能力的增强,这些原因是我们今天去选择去拥抱开源以及去拥抱 OpenTelemetry 的最核心。包括我们希望去借助这种 OpenTelemetry 这样一个能力能够帮助用户可以更加便捷快速地构建起整个可观测的体系。


本次 ARMS 也带来免费试用额度,登录阿里云官网 “aliyun.com” 搜索应用实时监控 ARMS,或者点击此处,即可获取免费试用资源。

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
2月前
|
Cloud Native API
微服务引擎 MSE 及云原生 API 网关 2024 年 9 月产品动态
微服务引擎 MSE 及云原生 API 网关 2024 年 9 月产品动态。
|
3月前
|
人工智能 安全 Cloud Native
阿里云云原生安全能力全线升级,护航百万客户云上安全
【重磅发布】9月20日,在杭州云栖大会上,阿里云宣布云原生安全能力全线升级,首次发布云原生网络检测与响应产品NDR(Network Detection Response,简称NDR)。同时,阿里云还宣布将持续增加免费的安全防护能力,帮助中小企业客户以极低投入完成基础的云上安全风险治理。
182 15
|
14天前
|
Cloud Native API 微服务
微服务引擎 MSE 及云原生 API 网关 2024 年 10 月产品动态
微服务引擎 MSE 及云原生 API 网关 2024 年 10 月产品动态。
|
18天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 10 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
26天前
|
运维 Kubernetes Cloud Native
云原生之旅:容器化与微服务的融合
【10月更文挑战第28天】 在数字化转型的浪潮中,云原生技术如星辰般璀璨,引领着企业IT架构的未来。本文将带你穿梭于云原生的世界,探索容器化技术和微服务架构如何携手共舞,打造灵活、高效的应用部署和运维模式。我们将通过实际代码示例,揭示这股力量背后的奥秘,并展现它们是如何为现代软件开发带来革新。准备好了吗?让我们启航,驶向云原生技术的深海。
|
2月前
|
运维 Cloud Native 数据可视化
阿里云云原生应用组装平台BizWorks满分通过最新评估
阿里云BizWorks满分通过《基于云计算的业务组装平台能力成熟度模型》评测,获得优秀级(最高等级),广东移动联合阿里云BizWorks团队开展的组装式应用实践获得第三届“鼎新杯”数字化转型应用优秀案例一等奖。
200 3
|
2月前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 09 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
2月前
|
Kubernetes Cloud Native 云计算
云原生时代的技术演进:Kubernetes与微服务架构的完美融合
随着云计算技术的飞速发展,云原生概念逐渐深入人心。本文将深入探讨云原生技术的核心——Kubernetes,以及它如何与微服务架构相结合,共同推动现代软件架构的创新与发展。文章不仅剖析了Kubernetes的基本工作原理,还通过实际案例展示了其在微服务部署和管理中的应用,为读者提供了一条清晰的云原生技术应用路径。
80 2
|
2月前
|
运维 Cloud Native 持续交付
云原生技术解析:从IO出发,以阿里云原生为例
【10月更文挑战第24天】随着互联网技术的不断发展,传统的单体应用架构逐渐暴露出扩展性差、迭代速度慢等问题。为了应对这些挑战,云原生技术应运而生。云原生是一种利用云计算的优势,以更灵活、可扩展和可靠的方式构建和部署应用程序的方法。它强调以容器、微服务、自动化和持续交付为核心,旨在提高开发效率、增强系统的灵活性和可维护性。阿里云作为国内领先的云服务商,在云原生领域有着深厚的积累和实践。
57 0