对话阿里云云原生产品负责人李国强:推进可观测产品与OpenTelemetry开源生态全面融合

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 阿里云宣布多款可观测产品全面升级,其中,应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?阿里云云原生应用平台产品负责人李国强接受采访解答了这些疑问,点击本文走进全新升级的阿里云可观测产品。

5 月 22 日,在最新一期的飞天发布时刻上,阿里云宣布多款可观测产品全面升级,其中一项是应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。


本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?飞天发布时刻在第一时间采访了阿里云云原生应用平台产品负责人李国强,让我们跟随这场访谈实录,走进全新升级的阿里云可观测产品。

阿里云本次重磅发布应用实时监控服务 ARMS 进行了全面的能力升级,为什么要做这样的演进?这背后希望传递给大家什么样的信息?


李国强:这是一个非常好的问题,借此我也和大家分享一下 ARMS 产品演进的一些方向和策略。ARMS 是应用性能监控领域的产品,在整个应用架构随着市场需求变化的不断演进下,它自然地会随之发生一些变化。


比如像前两年云原生应用、以及这几年大模型应用的出现,应用架构一直在演进。作为一个应用性能监控产品,同样要不断去迭代自己的功能,持续对新类型应用提供性能监控能力。帮助企业将应用架构性能与稳定性做好,这是为什么 ARMS 不断的进行演进、支持新能力的原因。


在最新的发布的能力中,有两大块能力也是完全契合新的应用类型与架构变化的。


第一是整个端侧应用的能力提升。随着移动互联网走进千行百业,大家用手机端去做事情的场景会越来越多,频次也会高一些,这时候端侧的性能监控就变得越来越重要。因为很多时候用户发现性能出了问题,作为一个厂商去诊断的时候,如果只看后端的监控性能,是不能够找到这个问题的根因的。


通过 ARMS,我们对用户体验监控(RUM)能力进行提升,去帮助企业解决这方面问题,它有几个重要的演进特征:


  • 第一个,就是对多端的支持。像 iOS、安卓、小程序,包括 React 等一些新的技术,使端侧类型变得非常的多。那怎么能够在一个产品里面支持所有客户端类型,对于企业来讲是非常关键的。
  • 第二个,就是现在用户对体验要求越来越高之后,对于企业来讲,也需要能够精细化的定位每个用户的请求是不是出问题。所以在最新的能力中,我们支持了以会话 Session 为粒度的可观测分析能力,使企业出现问题时能快速进行根因定位。
  • 第三个,就是在应用监控这块,我们拥抱了 OpenTelemetry 这样一个开源的标准,前面我们讲到今天客户端的类型非常丰富,各种各样的数据的采集方式和数据的格式,我们借助开源的力量,实现真正的统一。当我们基于这种统一的采集方式、数据格式的时候,会更快的构建出一个可观测体系,这对企业也是非常关键的。
  • 第四个,是如何对客户端的性能进行深度分析诊断,这也是非常关键的。包括会话的分析、页面的分析、资源的分析、异常分析等等,这些都是用户快速去发现端侧问题需要关注的地方。


另外是在应用监控即后端应用方面,刚才讲到了近几年随着微服务的兴起、云原生应用、大模型应用的不断出现,也催生了应用监控能力不断的提升,包括近年来在开源体系的支撑之下,我们原有的自研探针也升级到了以 OpenTelemetry 作为基础的探针模式。


这样使得我们能够更好的去借助整个开源社区的力量,在这之上还能再去做更强的自研能力的增强,使用户一方面可以去拥抱开源这样一个体系,另一方面还能得到我们一些产品上的加持。


第二个就是对多语言的能力支持。因为今天企业的应用类型越来越复杂了,它有原有的、老的应用类型,也有新兴的互联网的、手机的、大模型的应用,必然会导致语言类型多。之前我们有一个调研,结论是大部分的后端应用都是以 Java 为主,但这两年我们发现一个非常明显的趋势:互联网公司开始越来越多地用 Go 语言,大语言模型越来越多地用 Python 这个语言。


所以在最新的能力里面,我们除了持续加强对 Java 语言的支持之外,还增加了对 Go 语言和 Python 语言的无侵入的支持能力,使得用户再去构建云原生应用、大模型应用的时候也能够以无侵入的方式获得监控的能力。


第三个增强就是持续的剖析能力,Continuous profiling。这也是今天去做一些精细化的问题诊断时需要的,它能够在整个应用程序里形成一个切面,找到某一个问题出现时 CPU、内存等的一些特征,这对用户诊断一些比较复杂的问题的时候也是非常关键的。


另外,刚才也讲到近来大模型应用非常的火,其实从去年开始已经有非常多企业在用大模型构建应用了。大模型的应用架构其实和原有的应用架构也是不太一样的,它里面有比较多的像对检索增强的调用、对大模型本身的调用,这些调用在监控里是有特殊的数据格式和语义的。


在 ARMS 里面我们也最新推出了针对大模型应用的可观测能力,对用户是否为大模型调用的场景进行识别,并且给他一个专属的展示界面,使用户能够看得非常清楚,看到大模型应用是不是做了 RAG 的检索增强调用、它的响应时间、Token 量等等一系列的能力,帮助用户在构建大模型应用的时候调试及上线后的一些问题诊断等。


这些方面其实都是今天 ARMS 在面对新型的应用架构、新型的应用类型的时候推出的一系列新的能力,帮助用户持续构建好应用,同时还能不断地加强用户去精细化的诊断问题、发现问题的能力。


可观测性是云原生应用的基础。本次应用实时监控服务 ARMS 整体升级的一个主要的方向是围绕 OpenTelemetry,它带来什么重要的意义?


李国强:这也是一个非常重要的产品策略的一个演进的方向。我们明显看到近几年一个趋势,就是在可观测这个领域,开源已经成为了一个事实标准,在主导这个领域的主要的发展,包括像 Prometheus、Grafana,以及今天我们讲到 OpenTelemetry,这里的主要目标是能够让这个开源主导的技术发展得更加活跃,包括在用户使用的时候它的推广和普及性会更好。


那回到今天 ARMS 这个重要发布来看的话,这次全面拥抱 OpenTelemetry 生态的演进,有几个重要点可以和大家分享。


首先,OpenTelemetry 最核心的使用领域是 Tracing,我们前面也讲到了,在这个领域里需要做到对整个应用调用的链路进行跟踪和数据的采集,这是非常多元的。OpenTelemetry 通过定义标准的采集端和数据格式,统一了各种各样数据源的采集方式和获取数据的格式,使用户去构建一体化的可观测体系和架构的时候,变得更加简单了。这个标准化其实各个厂商有些时候是很难去实现的,只有通过开源、标准的这种方式才能去做到它。


其次,就是广泛多语言支持,前面其实我也提到了,今天企业内部的语言使用越来越广泛,OpenTelemetry 作为一个非常活跃的社区,其实对多语言的支持天然是非常好的,这也是开源社区常见的一种形态,所有人大家都来贡献,那在多语言支持这件事情上肯定也比一个人做要快,所以广泛的多语言支持也是我们去看重 OpenTelemetry 社区非常重要的方面。


第三个就是活跃的社区生态,除了我们刚才讲的对多语言的支持,在可观测里面还有一个多样性,就是框架的多样性。同样的,这通过活跃的社区生态是也是更好、更容易支持的,社区往往在设计架构之初就会考虑到扩展性,因为它需要去更多的人贡献,那这个扩展性也非常利于云厂商在开源能力之上去做一些增强。


基于 OpenTelemetry 这样一个标准,ARMS 也在这之上做了非常多自研能力的增强,包括指标采集、采集率的调整等等,这样一些能力使得用户既能够享受到开源社区的能力,不被厂商绑定,同时又能享受到云厂商在这上做的各种各样能力的增强,这些原因是我们今天去选择去拥抱开源以及去拥抱 OpenTelemetry 的最核心。包括我们希望去借助这种 OpenTelemetry 这样一个能力能够帮助用户可以更加便捷快速地构建起整个可观测的体系。


本次 ARMS 也带来免费试用额度,登录阿里云官网 “aliyun.com” 搜索应用实时监控 ARMS,或者点击此处,即可获取免费试用资源。

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
2月前
|
Cloud Native 测试技术 开发者
终于!我找到了开发的得力助手!阿里云天池云原生编程挑战赛参赛攻略
在比赛过程中,通义灵码插件成为了我开发工作的得力助手。这个插件提供了智能代码补全和错误提示功能,大大提高了我的编码效率。尤其是通义灵码能够实时分析代码,给出优化建议,让我避免了很多潜在的错误。
209 64
|
15天前
|
人工智能 安全 Cloud Native
阿里云云原生安全能力全线升级,护航百万客户云上安全
【重磅发布】9月20日,在杭州云栖大会上,阿里云宣布云原生安全能力全线升级,首次发布云原生网络检测与响应产品NDR(Network Detection Response,简称NDR)。同时,阿里云还宣布将持续增加免费的安全防护能力,帮助中小企业客户以极低投入完成基础的云上安全风险治理。
|
2月前
|
消息中间件 Cloud Native Serverless
RabbitMQ 与云原生技术的融合
【8月更文第28天】随着微服务架构和容器化的普及,云原生技术已成为构建现代应用的标准方式。云原生应用程序利用了诸如容器化、微服务、声明式API等技术,以提高可伸缩性、可靠性和可维护性。消息队列作为服务间通信的关键组件,在云原生环境中扮演着重要角色。本文将探讨如何将RabbitMQ与云原生技术(如Service Mesh和Serverless平台)相结合,并通过具体的代码示例来展示其集成方法。
30 2
|
2月前
|
Cloud Native 安全 网络安全
云计算与网络安全:技术融合与挑战云原生技术在现代软件开发中的应用
【8月更文挑战第28天】在数字时代的浪潮中,云计算和网络安全成为信息技术领域的两大支柱。本文将探讨云计算服务的分类、特点及其面临的安全威胁,分析网络安全的基本概念、重要性以及信息安全的关键要素。同时,文章将深入讨论云计算环境下的网络安全问题,包括数据保护、访问控制和合规性挑战,并提出相应的解决策略和技术措施。最后,通过一个代码示例,展示如何在云计算环境中实现基本的数据加密,以增强信息的安全性。 【8月更文挑战第28天】 随着云计算技术的飞速发展,云原生技术已成为推动软件行业创新的关键力量。本文将深入探讨云原生的核心概念、优势以及如何在现代软件开发中有效利用云原生技术。我们将通过具体案例,展示
|
2月前
|
人工智能 缓存 Cloud Native
用 Higress AI 网关降低 AI 调用成本 - 阿里云天池云原生编程挑战赛参赛攻略
《Higress AI 网关挑战赛》正在火热进行中,Higress 社区邀请了目前位于排行榜 top5 的选手杨贝宁同学分享他的心得。本文是他整理的参赛攻略。
523 69
|
9天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
针对软件供应链的攻击事件在以每年三位数的速度激增,其中三方或开源软件已经成为攻击者关注的重要目标,其攻击方式和技术也在不断演进。通过供应链的传播,一个底层软件包的漏洞的影响范围可以波及世界。企业亟需更加标准和完善的供应链风险洞察和防护机制。本文将结合最佳实践的形式,面向容器应用完整的生命周期展示如何基于容器服务ACK/ACR/ASM助力企业构建云原生软件供应链安全。
|
13天前
|
消息中间件 人工智能 Cloud Native
|
9天前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,智算时代云原生操作系统
今年是Kubernetes十周年,在这10年间。我们已经看到其成长为云原生操作系统,向下高效调度多种算力资源,屏蔽基础设施差异,向上提供统一编程接口,支持多样化工作负载。阿里云容器服务产品已经覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。
阿里云容器服务,智算时代云原生操作系统
|
17天前
|
运维 Kubernetes Cloud Native
探索云原生技术:容器化与微服务架构的融合之道
【9月更文挑战第18天】在数字化转型的浪潮中,云原生技术以其灵活性、可扩展性成为企业创新的强大引擎。本文将深入探讨云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同推动现代应用的开发与部署。通过实际代码示例,我们将揭示这些技术如何简化运维,加速产品上市时间,并提高系统的可靠性和弹性。无论你是开发人员、架构师还是IT决策者,这篇文章都将为你提供宝贵的洞见和实践指导。
20 2
|
1月前
|
Cloud Native 关系型数据库 Serverless
基于阿里云函数计算(FC)x 云原生 API 网关构建生产级别 LLM Chat 应用方案最佳实践
本文带大家了解一下如何使用阿里云Serverless计算产品函数计算构建生产级别的LLM Chat应用。该最佳实践会指导大家基于开源WebChat组件LobeChat和阿里云函数计算(FC)构建企业生产级别LLM Chat应用。实现同一个WebChat中既可以支持自定义的Agent,也支持基于Ollama部署的开源模型场景。
182 12
下一篇
无影云桌面