Android 崩溃监控实战:一次完整的生产环境崩溃排查全流程
某 App 新版上线后收到大量用户投诉 App 闪退和崩溃。仅凭一条崩溃日志和会话追踪,团队如何在2小时内锁定「快速刷新导致数据竞态」这一根因?本文带你复现真实生产环境下的完整排查路径:从告警触发、堆栈分析、符号化解析,到用户行为还原——见证 RUM 如何让“无法复现的线上崩溃”无所遁形。
一文带你玩转 WebSocket 全链路可观测
在 AI 实时交互爆发的时代,WebSocket 成为核心协议。但其双向、长连接、流式传输特性,让传统链路追踪频频失效。阿里云 LoongSuite 基于 OpenTelemetry 标准,结合探针增强与自定义扩展,首次实现 WebSocket 全链路可观测,支持 Span 粒度控制、上下文透传、异步衔接与关键性能指标采集。
AI Agent 越来越难迭代,你缺少的不是功能
还在担心 Token 消耗过多?还在纠结 Agent 难以优化?不改一行业务代码,LoongSuite Python 探针帮你把一次请求从头到尾捋顺:哪一步访问了什么模型、调用了什么工具、召回了哪些文档、花费了多少 token、上下文发生了什么变化。
Kubernetes 官方再出公告,强调立即迁移 Ingress NGINX
北京时间 1 月 30 日,Kubernetes 指导委员会和安全响应委员会在 kubernetes.io 再次发出公告《Ingress NGINX: Statement from the Kubernetes Steering and Security Response Committees》,并通过 CNCF 官方微信公众号发布中文版公告。
告别高昂出站费用:LoongCollector + CDN 打造跨云低成本可观测数据实时采集链路
LoongCollector 作为新一代统一可观测 Agent,将持续致力于为用户提供高性能、低成本、易使用的跨云数据采集解决方案,助力企业构建统一的可观测平台。
打通可观测性的“任督二脉”:实体与关系的终极融合
阿里云推出图查询能力,基于 graph-match、graph-call、Cypher 三重引擎,实现服务依赖、故障影响、权限链路的秒级可视化与自动化分析,让可观测从‘看板时代’迈向‘图谱时代’。
生成更智能,调试更轻松,SLS SQL Copilot 焕新登场!
本文是阿里云日志服务(SLS)首次对外系统性地揭秘 SLS SQL Copilot 背后的产品理念、架构设计与核心技术积淀。我们将带你深入了解,这一智能分析助手如何从用户真实需求出发,融合前沿 AI 能力与 SLS 十余年日志分析最佳实践,打造出面向未来的智能化日志分析体验。
稳定支撑大规模模型调用,携程旅游的 AI 网关实践
为了进一步提升服务水平和服务质量,携程很早就开始在人工智能大模型领域进行探索。而随着工作的深入,大模型服务的应用领域不断扩大,公司内部需要访问大模型服务的应用也越来越多,不可避免的就遇到了几个问题,我们自然就会想到使用网关来对这些服务接入进行统一管理,并增加各种切面上的流量治理功能。
RocketMQ-5.3.1异常、原因汇总表
本简介汇总了常见的RocketMQ异常信息及其解决方案,涵盖主题配置、网络通信、SSL设置、权限控制、消息发送与消费等多个方面,帮助开发者快速定位和理解异常原因。
5 分钟零代码改造,让 Go 应用自动获得全链路可观测能力
还在为 Go 应用的可观测性改造而烦恼?还在手动埋点、修改代码、引入 SDK?还在担心埋点影响性能?今天,我们带来一个零代码改造的解决方案——Loongsuite Go Agent,让你的 Go 应用在编译时自动获得全链路可观测能力!
ZooKeeper 实战指南:从入门到场景解析
Apache ZooKeeper是分布式系统的协调核心,本文带你快速搭建环境,掌握Znode操作与Watcher机制,深入理解其在分布式锁、配置管理、服务发现等场景的应用,并解析美团Leaf中的实践案例。
告别手动埋点!Android 无侵入式数据采集方案深度解析
传统的Android应用监控方案需要开发者在代码中手动添加埋点,不仅侵入性强、工作量大,还难以维护。本文深入探讨了基于字节码插桩技术的无侵入式数据采集方案,通过Gradle插件 + AGP API + ASM的技术组合,实现对应用性能、用户行为、网络请求等全方位监控,真正做到零侵入、易集成、高稳定。
已上线!云监控 2.0 面向实体的全链路日志审计与风险溯源
在云端,一次 API 调用背后可能隐藏着一场数据泄露;一个异常进程背后,或许是 AK 泄露引发的链式攻击。传统日志“看得见却看不懂”,而云监控 2.0 日志审计通过 UModel 实体建模,将分散在 ACS、K8s、主机各层的日志自动串联。
PalmPay 携手阿里云 RocketMQ,共建非洲普惠金融“高速通道”
通过采用阿里云云消息队列 RocketMQ 版,PalmPay 成功构建了一套高可用、高可靠、高弹性的消息中间件体系,全面提升了系统的稳定性、消息处理效率与业务连续性。云消息队列 RocketMQ 版在支付消息通知、高并发交易处理以及资源弹性伸缩等方面发挥了关键作用,有力支撑了 PalmPay 在非洲市场快速增长的数字支付需求。
AI 时代的数据通道:云消息队列 Kafka 的演进与实践
云消息队列 Kafka 版通过在架构创新、性能优化与生态融合等方面的突破性进展,为企业构建实时数据驱动的应用提供了坚实支撑,持续赋能客户业务创新。
事件驱动重塑 AI 数据链路:阿里云 EventBridge 发布 AI ETL 新范式
“一个简单的数据集成任务,开始时总是轻松愉快的,但随着业务扩展,数据源越来越多,格式越来越乱,整个数据链路就会变得一团糟。”陈涛在演讲中指出了当前 AI 数据处理的普遍困境。扩展难、运维难、稳定性差,这三大挑战已成为制约 AI 应用创新和落地的关键瓶颈。针对这些痛点,在2025云栖大会期间,阿里云重磅发布了事件驱动 AI ETL 新范式,其核心产品 EventBridge 通过深度集成 AI 能力,为开发者提供了一套革命性的解决方案,旨在彻底改变 AI 时代的数据准备与处理方式。
面向多租户云的 IO 智能诊断:从异常发现到分钟级定位
当 iowait 暴涨、IO 延迟飙升时,你是否还在手忙脚乱翻日志?阿里云 IO 一键诊断基于动态阈值模型与智能采集机制,实现异常秒级感知、现场自动抓取、根因结构化输出,让每一次 IO 波动都有据可查,真正实现从“被动响应”到“主动洞察”的跃迁。
低至 1% 性能损耗:阿里云 ARMS 配置模板如何实现精准可控的 JMX 数据采集
APM 一定要全量采集吗?ARMS 推出配置模板,支持按场景分级监控:核心应用上 Trace,非核心只采 JVM,成本直降 90%+ !
阿里云加持,《泡姆泡姆》让全球玩家畅享零延迟冒险
通过 SLS、ARMS 与 CMS 的协同运作,《泡姆泡姆》实现了从基础设施到应用逻辑再到用户行为的全栈洞察。这一技术体系不仅支撑了游戏的全球化运营,更为实时互动娱乐场景提供了可复用的技术范式——通过云原生架构的弹性能力、全栈可观测的智能诊断与热更新的持续交付,让技术真正服务于“玩家体验零损耗”的终极目标。
官宣上线!RocketMQ for AI:企业级 AI 应用异步通信首选方案
RocketMQ 专门为 AI 场景推出了全新Lite Topic 模型,目前已在阿里云云消息队列 RocketMQ 版 5.x 系列实例上正式发布,并会逐步贡献到 Apache RocketMQ 开源社区,欢迎大家使用。
KCD 杭州站 x OpenInfra Days China 首次联手!议程全公开,超强 Speaker 阵容抢先看
11 月 15 日杭州浙大森林会议中心,与全球技术精英面对面交流,共探技术前沿,名额有限,先到先得~
活动邀请丨2025 全球机器学习技术大会
阿里云高级技术专家周礼受邀于 10 月 17 日下午分享议题《Apache RocketMQ x AI:面向异步化 Agent 的事件驱动架构》。
阿里云操作系统控制台一招解决网络丢包
阿里云 SysOM 丢包诊断,通过内核级智能分析,自动识别丢包环节,精准定位 netfilter 规则、异常 hook 钩子等根源,让复杂网络故障排查从“专家依赖”走向“平台化解决”。
基于 UModel 高效构建可观测场景统一实体搜索引擎
在复杂的云原生环境中,服务、Pod、主机等可观测实体动辄成千上万,散落在 APM、K8s、云资源等多个系统中。当故障发生时,如何快速从海量数据中“找到那个出问题的服务”,成为 SRE 和运维工程师的核心挑战。
这两个开源项目在世界互联网大会乌镇峰会获奖
2025 “直通乌镇”全球互联网大赛中,Spring AI Alibaba 和 Higress 分别获得了开源先锋社区、开源优秀社区的称号,两位社区贡献者张圣航(GitHubID: shenghang)、刑国富(GitHubID: erasernoob)获得最具价值贡献者奖。
清理祖传 AK 不怕炸锅:基于 UModel 的云监控 2.0 身份凭证观测实践
本文介绍了通过阿里云监控 2.0 的日志审计功能实现 AccessKey 和 RAM 角色的主动管理方案。核心是利用 Umodel 统一实体模型,将管控面(ActionTrail 日志)和数据面(OSS/SLS 日志)的日志数据转化为实体关系图谱,清晰展示身份凭证与云资源的交互行为。通过关联建模、内置洞察报表和告警规则,可追踪 AK/角色的使用情况、风险操作及资源影响,辅助安全清理和风险闭环。
MCP Registry 官方发布:Nacos 原生支持,借助 HiMarket 构建企业级私有 MCP 市场
最近,MCP 社区发布了 MCP Registry(2025‑09‑08,预览版),为公开 MCP Server 提供“统一目录服务和开放 API”。Nacos 已原生支持 MCP Registry API,可直接作为“MCP Registry”对外提供标准 REST/OpenAPI 服务端,天然融入企业现有注册中心与配置治理体系,并与 Higress/HiMarket 对接打通,让企业能够高效的构建自己的私有 MCP 市场。
AgentScope Java v1.0 首播解读!
阿里云云原生团队做客 DataWhale「动手学 Java Agentic 应用开发」主题直播间,为大家实时带来 AgentScope Java v1.0 的深度解读,无论你是刚接触智能体的新手,还是正在探索企业级 AI 应用,这场直播都值得加入! 讲师/嘉宾简介 江河清|AgentScope Java 核心成员
一行代码实现智能异常检测:UModel PaaS API 架构设计与最佳实践
阿里云 UModel PaaS API 发布:通过 Table + Object 双层抽象,屏蔽存储差异、自动处理字段映射与过滤条件,让每一个实体都成为一个‘可调用的对象’,真正实现‘以实体为中心’的智能可观测。
Entity Explorer:基于 UModel 的实体探索平台
阿里云 Entity Explorer 正式发布:基于 UModel 的智能实体探索平台,实现亿级实体秒级检索、关系拓扑自动构建、详情页动态渲染,让可观测性从“数据堆砌”迈向“业务洞察”。
16 倍性能提升,成本降低 98%! 解读 SLS 向量索引架构升级改造
大规模数据如何进行语义检索? 当前 SLS 已经支持一站式的语义检索功能,能够用于 RAG、Memory、语义聚类、多模态数据等各种场景的应用。本文分享了 SLS 在语义检索功能上,对模型推理和部署、构建流水线等流程的优化,最终带给用户更高性能和更低成本的针对大规模数据的语义索引功能。
LangChain脚本如何调度及提效?
在大模型时代,Python成为了主要的编程语言,最有代表性的就是LangChain大模型开发框架。本文章介绍如何有效的进行LangChain脚本管理、调度、提升资源利用率、限流等能力。