面向多租户云的 IO 智能诊断:从异常发现到分钟级定位
当 iowait 暴涨、IO 延迟飙升时,你是否还在手忙脚乱翻日志?阿里云 IO 一键诊断基于动态阈值模型与智能采集机制,实现异常秒级感知、现场自动抓取、根因结构化输出,让每一次 IO 波动都有据可查,真正实现从“被动响应”到“主动洞察”的跃迁。
阿里云可观测联合 Datadog 发布 OpenTelemetry Go 自动插桩工具
面对 Go 语言长期缺乏成熟自动插桩方案的困境,阿里云联合 Datadog 推出 OpenTelemetry Go 编译时插桩工具,无需修改代码,只需 ./otel-go build,即可为 HTTP、gRPC、Redis 等组件自动注入链路追踪与指标采集能力。现已开源,欢迎试用!
拒绝查询超时:一次真实高并发场景下的 SLS 物化视图调优实战
在某大型业务团队的核心日志场景中,阿里云 SLS 物化视图将三个长期超时的慢查询分别提速 89倍、8倍、56倍,从“查不出来”变为“随时可查”。通过“预计算 + 查表读取”,用极低的存储成本,换来极致的查询性能与稳定性。
应对 Nginx Ingress 退役,是时候理清这些易混淆的概念了
本文希望提供一种更简单的方式,来理解这些容易混淆的技术概念:Nginx、Ingress、Ingress Controller、Ingress API、Nginx Ingress、Higress、Gateway API。
跨云日志统一:对象存储数据导入 SLS 的智能之路
从 AWS S3 到阿里云 SLS,打造跨云日志智能分析的高效通路——实时发现、弹性导入、格式自适应、成本优化,让海量日志从存储真正走向业务洞察。
课程回顾 | AI原生应用开源开发者沙龙·广州站
了解AgentScopeJava1.0发布内容,揭秘企业级私有化AI平台HiMarket,深入探讨Serverless智能体基础设施、可观测性与A2A通信新基座。
iOS 崩溃排查不再靠猜!这份分层捕获指南请收好
从 Mach 内核异常到 NSException,从堆栈遍历到僵尸对象检测,阿里云 RUM iOS SDK 基于 KSCrash 构建了一套完整、异步安全、生产可用的崩溃捕获体系,让每一个线上崩溃都能被精准定位。
ZooKeeper 实战指南:从入门到场景解析
Apache ZooKeeper是分布式系统的协调核心,本文带你快速搭建环境,掌握Znode操作与Watcher机制,深入理解其在分布式锁、配置管理、服务发现等场景的应用,并解析美团Leaf中的实践案例。
【k8s-1.34.2安装部署】十.gateway Api v1.4.0安装
本章介绍Kubernetes Gateway API部署,重点讲解Istio作为更新最快、兼容性最佳的控制器。内容涵盖Istio安装、Gateway API部署(含实验版与正式版)、各类路由(HTTP、gRPC、TCP、UDP)配置示例及镜像拉取失败解决方案,助您快速上手Gateway API实践。
AgentScope Java 答疑时间:开发者近期最关心的12个问题
近日,AgentScope Java V1.0 版本正式发布,全面对齐 Python 版核心能力,为 Java 开发者带来了构建企业级 Agentic 应用强大的开源方案。在最近与 DataWhale 合作的 AgentScope Java 解读线上直播间中,我们收到了大家的热情提问。为了方便大家集中查阅,我们整理了其中最高频的 Q&A,由 AgentScope Java 的核心开发者为大家一次性说清讲透!
阿里云操作系统控制台一招解决网络丢包
阿里云 SysOM 丢包诊断,通过内核级智能分析,自动识别丢包环节,精准定位 netfilter 规则、异常 hook 钩子等根源,让复杂网络故障排查从“专家依赖”走向“平台化解决”。
已上线!云监控 2.0 面向实体的全链路日志审计与风险溯源
在云端,一次 API 调用背后可能隐藏着一场数据泄露;一个异常进程背后,或许是 AK 泄露引发的链式攻击。传统日志“看得见却看不懂”,而云监控 2.0 日志审计通过 UModel 实体建模,将分散在 ACS、K8s、主机各层的日志自动串联。
课程回顾 | AI 原生应用开源开发者沙龙·杭州站
《AgentScope Java 1.0 发布》——刘军|AgentScope Maintainer 《AgentScope on AgentRun:构建 Serverless 驱动的智能体基础设施》——王仁达|阿里云智能高级技术专家 《AgentScope x LoongSuite 可观测实践》——张铭辉|LoongSuite Maintainer 《AgentScope × RocketMQ:构建 A2A 智能体通信新基座》——赵科|阿里云智能云原生技术工程师 讲师/嘉宾简介 刘军|AgentScope Maintainer、王仁达|阿里云智能高级技术专家、张铭辉|LoongSuite Maintainer、赵科|阿里云智能云原生技术工程师
AgentScope x RocketMQ:打造企业级高可靠 A2A 智能体通信基座
基于 RocketMQ SDK 实现了 A2A 协议的 ClientTransport 接口(部分核心代码现已开源),并与 AgentScope 框架深度集成,共同构建了全新的 A2A 智能体通信基座,为多智能体应用提供企业级、高可靠的异步协同方案。
Android 崩溃监控实战:一次完整的生产环境崩溃排查全流程
某 App 新版上线后收到大量用户投诉 App 闪退和崩溃。仅凭一条崩溃日志和会话追踪,团队如何在2小时内锁定「快速刷新导致数据竞态」这一根因?本文带你复现真实生产环境下的完整排查路径:从告警触发、堆栈分析、符号化解析,到用户行为还原——见证 RUM 如何让“无法复现的线上崩溃”无所遁形。
一文带你玩转 WebSocket 全链路可观测
在 AI 实时交互爆发的时代,WebSocket 成为核心协议。但其双向、长连接、流式传输特性,让传统链路追踪频频失效。阿里云 LoongSuite 基于 OpenTelemetry 标准,结合探针增强与自定义扩展,首次实现 WebSocket 全链路可观测,支持 Span 粒度控制、上下文透传、异步衔接与关键性能指标采集。
AgentScope Java 首播来啦
12 月 11 日晚 19:30,阿里云云原生团队将做客 DataWhale「动手学 Java Agentic 应用开发」主题直播间,为大家实时带来 AgentScope Java v1.0 的深度解读,无论你是刚接触智能体的新手,还是正在探索企业级 AI 应用,这场直播都值得加入!
AgentScope Java v1.0 首播解读!
阿里云云原生团队做客 DataWhale「动手学 Java Agentic 应用开发」主题直播间,为大家实时带来 AgentScope Java v1.0 的深度解读,无论你是刚接触智能体的新手,还是正在探索企业级 AI 应用,这场直播都值得加入! 讲师/嘉宾简介 江河清|AgentScope Java 核心成员
一行代码实现智能异常检测:UModel PaaS API 架构设计与最佳实践
阿里云 UModel PaaS API 发布:通过 Table + Object 双层抽象,屏蔽存储差异、自动处理字段映射与过滤条件,让每一个实体都成为一个‘可调用的对象’,真正实现‘以实体为中心’的智能可观测。
打通可观测性的“任督二脉”:实体与关系的终极融合
阿里云推出图查询能力,基于 graph-match、graph-call、Cypher 三重引擎,实现服务依赖、故障影响、权限链路的秒级可视化与自动化分析,让可观测从‘看板时代’迈向‘图谱时代’。
揭开 Java 容器“消失的内存”之谜:云监控 2.0 SysOM 诊断实践
JVM 没满,Pod 却挂了?可能是 C2 Compiler 在“偷偷吃内存”。阿里云云监控 2.0 的 SysOM 系统诊断帮你穿透 JNI 黑盒,找出真正的内存元凶!
基于 UModel 高效构建可观测场景统一实体搜索引擎
在复杂的云原生环境中,服务、Pod、主机等可观测实体动辄成千上万,散落在 APM、K8s、云资源等多个系统中。当故障发生时,如何快速从海量数据中“找到那个出问题的服务”,成为 SRE 和运维工程师的核心挑战。
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
MCP 网关实战:基于 Higress + Nacos 的零代码工具扩展方案
本文会围绕如何基于 Higress 和 Nacos 的 docker 镜像在 K8s 集群上进行分角色部署。
构建数据资产“导航地图”:详解 UModel 数据发现与全链路分析能力
你是否曾面对一个庞大的可观测系统,却不知从何下手?成百上千个实体定义散落在 APM、K8s、云产品等不同域中,关系错综复杂,文档滞后,新人上手难,模型演进无迹可循……阿里云 UModel 查询为此而生。它不是查询日志或指标,而是查询“模型本身”——让你一键看清:系统里定义了哪些实体?它们之间如何关联?哪些模型字段过多、描述缺失?跨域依赖是如何构建的?
从系统监控到业务洞察:ARMS 自定义指标采集功能全解析
阿里云应用实时监控服务 ARMS 推出自定义指标采集功能,让 APM 真正深入业务核心,订单、库存、转化率等核心数据尽在掌控!
从“看曲线”到“懂问题”:MetricSet Explorer 如何重构指标分析体验
告警太多看不过来?MetricSet Explorer 来帮你“挑重点”:自动识别异常、智能分组聚类、一键定位根因,让百万级指标也能秒级洞察!
Nginx Ingress 退役,详细版迁移指引来啦
Ingress NGINX 退役引发开发者们的强烈关注,官方已经提供了完备的应对措施,迁移到 Gateway API,以及20+ Ingress 控制器。但实施迁移的时候,企业还会希望了解新的 Ingress 控制器是否兼容 Ingress NGINX 的注解,迁移过程中如何进行灰度切流,遇到流量损失如何快速回滚等,以保障迁移过程平滑,不影响线上业务。因此,本文将提供基于实操的应对方案,以阿里云云原生 API 网关(Higress 企业版)为例,按步骤详细阐述迁移的操作过程。
打造你的专属 AI 导游:基于 RocketMQ 的多智能体异步通信实战
在现代 AI 应用中,多智能体(Multi-Agent)系统已成为解决复杂问题的关键架构。然而,随着智能体数量增多和任务复杂度提升,传统的同步通信模式逐渐暴露出级联阻塞、资源利用率低和可扩展性差等瓶颈。为应对这些挑战,RocketMQ for AI 提供了面向 AI 场景的异步通信解决方案,通过事件驱动架构实现智能体间的高效协作。本文将探讨和演示如何利用 RocketMQ 构建一个高效、可靠且可扩展的多智能体系统,以解决企业级 AI 应用中的核心通信难题。
【本不该故障系列】告别资源“不确定性”,SAE 如何破解刚性交付核心困境
资源刚性交付是保障线上业务稳定的核心。阿里云SAE通过全托管Serverless架构,实现资源无限弹性、性能100%隔离、按需秒级计费,破解自建K8s在库存、性能、成本等方面的系统性困境,让企业无需妥协即可获得确定性交付能力。
Entity Explorer:基于 UModel 的实体探索平台
阿里云 Entity Explorer 正式发布:基于 UModel 的智能实体探索平台,实现亿级实体秒级检索、关系拓扑自动构建、详情页动态渲染,让可观测性从“数据堆砌”迈向“业务洞察”。
云监控 UModel Explorer:用“图形化”重新定义可观测数据建模
阿里云 UModel Explorer 正式发布:告别复杂配置,拖拽即建模,点击即洞察,实现建模、探索、分析一体化,让可观测真正高效协同,开启可视化运维新时代!
Agentic 时代必备技能:手把手为 Dify 应用构建全链路可观测系统
本文讲述 Dify 平台在 Agentic 应用开发中面临的可观测性挑战,从开发者与运维方双重视角出发,系统分析了当前 Dify 可观测能力的现状、局限与改进方向。
一次内存诊断,让资源利用率提升 40%:揭秘隐式内存治理
阿里云云监控 2.0 推出 SysOM 底层操作系统诊断能力,基于 eBPF + BTF 协同分析,无需侵入业务,即可一键完成从物理页到文件路径、再到容器进程的全栈内存归因,让“黑盒内存”无所遁形。
多源 RAG 自动化处理:从 0 到 1 构建事件驱动的实时 RAG 应用
当企业想用大模型和内部非公开信息打造智能问答系统时,RAG(Retrieval-Augmented Generation,检索增强生成)已成为必备技术。然而,在实际落地中,构建 RAG 应用的数据准备过程繁琐复杂且充满挑战,让很多企业和开发者望而却步。本文将介绍构建 RAG 的最佳实践:通过阿里云事件总线 EventBridge 提供的多源 RAG 处理方案,基于事件驱动架构为企业 AI 应用打造高效、可靠、自动化的数据管道,轻松解决 RAG 数据处理难题。
云拨测:当“正常变更”摧毁全球网络时,谁来守护你的业务可用性?
一次权限变更,引发全球边缘网络瘫痪4小时,数百万网站返回 5XX,连状态页也宕机。故障源于“正常的变更”,暴露了企业对服务商的盲目信任。当内部监控失效,唯有云拨测能从真实用户视角,独立验证“服务是否可用”。