云原生可观测套件:构建无处不在的可观测基础设施

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
可观测监控 Prometheus 版,每月50GB免费额度
应用实时监控服务-应用监控,每月50GB免费额度
简介: 近日,全球权威 IT 研究与顾问咨询公司 Gartner 发布《2023 年十大战略技术趋势》报告,「应用可观测性」再次成为其中热门趋势之一。阿里云原生可观测套件 ACOS Prometheus监控、ARMS、Grafana服务皆迎来重大更新,进一步覆盖不同监控长江。

Gartner:可观测性成为数据驱动型决策最强支撑


近日,全球权威 IT 研究与顾问咨询公司 Gartner 发布《2023 年十大战略技术趋势》报告。报告围绕优化、扩展和开拓三大主题展开,「应用可观测性」再次成为其中热门趋势之一。


Gartner 杰出研究副总裁 Frances Karamouzis 表示:“为增加盈利,企业 IT 高管在持续加快数字化转型的同时,需将目光从节约成本转向新的卓越运维方式。,可观测性以高度统筹与整合的方式将用户数字化操作所产生的可观测数据进行反馈并创造决策循环,提高组织决策有效性。如能在战略中予以规划并执行,可观测性将成为数据驱动型决策的最强支撑。”


但伴随着 IT 技术高速发展,企业在落地可观测过程中必然遭遇三大阻隘。首先,蓬勃发展的开源/商业可观测产品生态与逐渐无法满足云原生 IT 运维需求的传统企业监控体系,造成新老工具、数据与工具的割裂。 如何选择与平衡成为CTO、CIO 必须面对的选择题。其次,当微服务架构以及分布式架构被越来越多应用于企业业务,以日志为例的典型可观测数据,计算成本与存储成本以指数级增长。在行业形势愈发严峻的当下,可观测成本投入高昂且难以预估,应用场景往往停留在单点排查或基础监控告警上,大张旗鼓的落地可观测基础设施,回报价值未知。以上几点,这都难以说服CTO、CIO们投入愈发吃紧的运维预算与人力进行可观测性建设。


为解决以上难题,深耕可观测领域的阿里云于今年6月推出阿里云云原生可观测套件ACOS,该产品套件由阿里云 Prometheus 服务、阿里云 Grafana 服务、链路追踪 OpenTelemetry组成,这三款开源流行度最高、生态集成最广的事实标准是云原生可观测套件ACOS的“核心”,旨在通过开放标准打通所有阿里云可观测产品实现全链路数据标准化,并连接企业存量可观测数据资产,与阿里云应用托管平台集成。


全面覆盖用户体验(UEM)、应用观测(APM)、云服务观测、成本管理、应急协同效率等场景。帮助企业高效构建开放、高质量、低成本的统一可观测体系。


1.png

云原生可观测 ACOS 的独特价值


相较于其他可观测商业化或开源解决方案,云原生可观测套件在采集、存储、计算、告警、查询、可视化六大环节做到与开源标准的全面兼容与优化提升。同时,将阿里巴巴集团以及阿里云服务海量用户的可观测经验进行产品化输出。这包含超过 50 款阿里云主流云服务的运行指标、大盘和告警规则预置模板。从基础设施到容器,从应用到用户体验,从成本分析到运维效能分析,在接入第一天就做到全链路高质量观测。


自发布以来,众多行业客户借助阿里云原生可观测套件 ACOS 快速构建统一可观测体系。以友邦人寿为例,友邦人寿对应用进行容器化、微服务化改造,以适应业务与性能要求。但随着访问链路与部署复杂度提升,观测微服务和 K8s 运行,并构建全栈可观测能力成为巨大挑战。借助 ACOS,友邦人寿将可观测性覆盖研发生产全周期,将研发态与运维态指标关联与展现,从而有效度量研发效率。同时,将多容器集群及应用服务的观测进行统一,将应用性能指标、全局调用链、日志相融进行快速根因定位的同时,形成指挥决策、仪表盘展示、告警推送的多维度观测能力,大幅提升运维服务效率。


云原生可观测 ACOS 焕新升级


本次云栖大会,阿里云云原生可观测套件 ACOS 三大组件也迎来重要升级。


2.jpeg


首先,作为容器观测事实标准的阿里云 Prometheus 监控,观测范围从专精容器延伸到全栈可观测。为了帮助更多企业构建统一观测体系,Prometheus 监控已成为阿里云 50+款云产品默认观测基础设施,并与应用实时监控服务 ARMS 的 APM 指标、eBPF 指标、OpenTelemetry 指标联通,以及将企业的 ECS(非 K8s 集群)、K8s 集群、非阿里云集群进行 Prometheus 实例聚合,帮助企业一键开启全球与异构架构下的统一可观测中心。


在服务外部客户同时,阿里云 Prometheus 监控不断通过内部场景进行打磨,目前已能够支持千万核的容器观测及数十亿级别时间线的时序存算能力。对于时序监控场景的核心技术难点,如海量动态监控对象采集能力、高基数时间线发散收敛、长周期查询、突发流量下误报漏报等场景进行针对性优化,使得阿里云 Prometheus 监控真正成为无处不在,大规模生产可用的可观测基础设施。


在赋予企业强大观测能力的同时,Prometheus 推出全新包年包月计费形式,同等业务规模下,平均相较于自建成本降低 60%。满足不同业务规模用户的观测需求,并尽可能减轻企业的运维成本压力。


3.png


其次,作为观测界面的阿里云 Grafana 服务也将迎来 9.0 焕新升级。全新的 Prometheus 和 Loki 查询语句生成器及强化后的搜索 Explore 功能,让用户获得更强的数据查询与分析能力,更低门槛的创建可视化大盘与告警。同时,为了应对越来越丰富的异构可观测数据源,Grafana 服务与日志服务 SLS、Elasticsearch 等 20+款可观测存储服务集成,帮助企业更简单的构建统一「运维&业务」观测界面。一键导入/导出自建实例、自动数据导出报表,一键数据备份、恢复,用户操作审计等企业特性进一步增强。


4.png


最后,为了帮助企业的云上应用开启多维度观测视角,应用实时监控服务 ARMS 也迎来巨大升级。在数据采集方面,在完整支持 Opentelemetry SDK 的同时,指标数据可完全通过与 Prometheus 标准进行存储与计算,补充业务、自定义组件埋点。在完善观测维度的同时,避免厂商锁定。并借助 TraceExplorer 实现多来源 Trace 统一查询。


与此同时,eBPF 技术以及 Continuous Profiling 作为目前可观测领域最为热门的细分领域,阿里云可观测团队也进行积极探索。本次大会阿里云可观测团队开放基于 eBPF 技术的“轻量版应用监控”预览,帮助企业快速获得无侵入、全语言的应用监控能力,并及时感知集群全局拓扑结构。


同时,与 Alibaba Dragonwell 团队联合推出 Continuous Profiling 功能,能够以极低功耗持续分析代码级别的性能开销,覆盖传统链路、指标和日志覆盖不到的细节,实现代码级生产环境性能问题定位及全天候主动剖析,让应用观测视角更丰富,观测颗粒度更细致。


5.png


在不断探索更多可观测场景服务阿里巴巴集团以及海量企业用户的同时,阿里云可观测凭借其完备的产品能力与良好的生态集成能力及出色的成本优势,收获了国内外行业机构的高度认可。阿里云应用实时监控服务 ARMS 在今年获得中国信通院首批可观测产品先进级认证。同时,阿里云连续两年进入 Gartner APM 与可观测魔力象限,今年更是成为唯一入选的中国厂商。


万物皆云的时代,可观测性让云计算更易用高效,最大程度释放业务稳定性、安全性、经济性价值。“观测力”已成为每个 IT 人的必备核心竞争力。不止于观测,可观测帮助企业分析、洞察并实现高质量的决策与业务创新。而阿里云将不断推动可观测技术演进与落地实践,帮助企业获得最具性价比的可观测性,真正实现高质量数字化转型与创新。


6.png

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
3月前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
226 17
|
3月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
149 6
|
7月前
|
Cloud Native
邀您参加云原生高可用技术沙龙丨云上高可用体系构建:从理论到实践
云原生高可用技术专场,邀您从理论到实践一起交流,探索云上高可用体系构建!
145 44
|
7月前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
7月前
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
7月前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
3月前
|
运维 Cloud Native 测试技术
极氪汽车云原生架构落地实践
随着极氪数字业务的飞速发展,背后的 IT 技术也在不断更新迭代。极氪极为重视客户对服务的体验,并将系统稳定性、业务功能的迭代效率、问题的快速定位和解决视为构建核心竞争力的基石。
|
2月前
|
人工智能 Cloud Native 容灾
深圳农商银行三代核心系统全面投产 以云原生架构筑牢数字化转型基石
深圳农商银行完成第三代核心系统全面上云,日均交易超3000万笔,峰值处理效率提升2倍以上。扎根深圳70余年,与阿里云共建“两地三中心”分布式云平台,实现高可用体系及全栈护航。此次云原生转型为行业提供可复制样本,未来将深化云计算与AI合作,推动普惠金融服务升级。
260 17
|
2月前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
184 3