首次!阿里云可观测技术论文登上两大国际顶会

简介: 首次!阿里云可观测技术论文登上两大国际顶会

近日,阿里云可观测技术两篇论文分别入选软件工程领域两大顶级国际会议ASPLOS、ICSE,论文创造性地提出一套全新链路追踪框架Mint和一项故障诊断方法FAMOS,这是阿里云可观测技术论文首次被国际顶级会议录入,标志着阿里云可观测追踪框架设计及故障诊断方法的研究获得学术界的认可。




可观测链路追踪领域论文首次入选顶会

在入选顶会ASPLOS的论文《Mint: Cost-Efficient Tracing with All Requests Collection via Commonality and Variability Analysis》中,阿里云提出了一套全新链路追踪框架Mint,该框架通过“共性+差异”的新采样范式,既能保留重要信息,又能减少数据体量,实现了优化存储与网络开销的同时,捕获所有请求的调用链信息,让开发者可以借助丰富的数据更好的理解与管理复杂的应用系统。该论文是阿里云在可观测链路追踪(Tracing)领域入选的首篇顶会文章。



在传统的链路追踪框架中,分布式调用链作为追踪和观测分布式系统中请求的调用路径的主要手段,尽管提供了丰富的信息,但通常伴有庞大的数据体量。这种追踪方式采用“非黑即白”的采样策略:要么完整记录下所有信息(就像全程开着灯),要么几乎不记录任何信息(完全关着灯),没有中间状态,这就造成要么数据太多处理不过来而丢失关键信息,要么因为数据太少而无法准确地理解整个情况。就像100个不同的舞台剧剧本,保留其中60个,删除另外40个。



Mint框架如同给调用链进行了一次聪明的整理,它首先找出所有操作中的“共性”,单独标记出每次操作特有“差异”,接着再把所有的共性聚合起来处理,同时对所有的差异进行过滤,这样可以让系统更加高效地记录和分析每一次的操作流程,同时也能更好地理解整个系统的运行情况。就像100个舞台剧剧本都有相同的开场白和结束语,但中间的舞蹈与对话都不同,通过识别并保留这些剧本中的共性(开场和结束)和差异(舞蹈和对话),更容易高效地区分与组织这些内容。


实验结果表明,链路追踪框架Mint能够捕获所有调用链,在优化存储(平均减少至2.7%)和网络开销(平均减少至4.2%)的同时,保留更多调用链信息,且该框架足够轻量化,适合在生产环境中使用。


FAMOS故障诊断方法入选顶会ICSE


阿里云入选顶会ICSE的论文《FAMOS: Fault diagnosis for Microservice Systems through Effective Multi-modal Data Fusion》则是提出了一项名为FAMOS的故障诊断方法



FAMOS故障诊断针对IT系统中由于软硬件环境及依赖关系复杂导致的单一数据源难以定位问题的情况,为每种类型的数据(如日志、指标、追踪等)设计最佳特征提取方式来减少信息丢失,并采用多种手段捕捉不同数据源之间的关联性,增强了故障识别的准确性和效率。


就像侦探在侦破案件时,将目击者的描述(声音)、现场的照片(图像)以及案发时的监控录像(视频)按不同类型进行提取,并将这些信息进行关联分析,从而揭示案件背后的真相。


两篇论文涉及的科研成果目前已部分在阿里云可观测产品家族日志服务SLS、应用实时监控服务ARMS等产品模块深度集成与整合。在未来,阿里云可观测产品将为众多云上企业持续提供业界领先的大模型算法与可观测应用能力。



阿里云已为全球近百个可用区的百万企业级用户提供高效便捷、安全稳定的可观测服务。如叠纸通过使用日志服务SLS实时监控新游《无限暖暖》全球同步上线运行状况,对关键云资源用量进行监控和告警;茶百道基于应用实时监控服务ARMS快速建立运维观测与响应能力,故障恢复效率提升50%以上;极氪基于日志服务SLS与应用实时监控服务ARMS构建应急响应与ChatOps协同机制,告警平均恢复耗时缩短50%。


ASPLOS(International Conference on Architectural Support for Programming Languages and Operating Systems) 作为ACM编程语言和操作系统架构支持的国际会议,是跨学科计算机系统研究的顶级学术会议,会议聚焦计算机架构、网络、存储、剖析与测试、安全性与可靠性等相关领域,论文接收率12.7%。

ICSE(International Conference on Software Engineering)是软件工程领域的顶级国际会议,每年由ACM主办。自1975年首次召开以来,ICSE会议已经发展成为软件工程学术界和工业界最重要的会议之一,每年论文录取率大约在15%~20%之间。


/ END /

目录
相关文章
|
监控
使用云监控2.0页面诊断问题根因-错误分析指南
针对一次故障的根因诊断,通过云监控2.0调用链分析。
2556 0
|
人工智能 安全 数据挖掘
暸望塔丨AI+云,双轮驱动中企扬帆出海
处在出海不同阶段的企业,关注点有所差异,但对于致力于全球开展业务的企业而言,全球数字化平台始终是企业能够快速开展全球业务的关键支撑。
暸望塔丨AI+云,双轮驱动中企扬帆出海
|
运维 Kubernetes 容器
使用SPL快速诊断问题根因 -- 延迟分析指南
查找故障时段内系统异常根因。
925 0
|
存储 运维 监控
首次!阿里云可观测技术论文登上两大国际顶会
首次!阿里云可观测技术论文登上两大国际顶会
291 0
|
6月前
|
存储 人工智能 自然语言处理
游戏云,市场份额第一!
IDC最新报告显示,阿里云稳居中国游戏云市场第一,整体份额达41%。依托AI与云计算融合创新,助力米哈游、网易等企业出海,推动游戏研发、运营升级,持续引领行业发展。
645 0
游戏云,市场份额第一!
|
人工智能 运维 安全
AI大模型运维开发探索第四篇:智能体分阶段演进路线
本文探讨了智能体工程的演进历程,从最初的思维链(智能体1.0)到实例化智能体(智能体2.0),再到结构化智能体(智能体3.0),最终展望了自演进智能体(智能体4.0)。文章详细分析了各阶段遇到的问题及解决策略,如工具调用可靠性、推理能力提升等,并引入了大模型中间件的概念以优化业务平台与工具间的协调。此外,文中还提到了RunnableHub开源项目,为读者提供了实际落地的参考方案。通过不断迭代,智能体逐渐具备更强的适应性和解决问题的能力,展现了未来AI发展的潜力。
|
监控 Perl 容器
使用云监控2.0页面诊断问题根因-延迟分析指南
针对一次故障的根因诊断,云监控2.0调用链分析发现异常耗时,经排查为【checkout】服务独占耗时过长,进一步分析确认其CPU使用率突增至100%,判定根因为【checkout.cpu】性能问题。
1481 0
|
人工智能 Kubernetes Perl
2025 AI 原生编程挑战赛 术语说明与FAQ
本文档介绍了天池2025比赛的相关术语和一些疑问的解答。包括云监控平台(CloudMonitor 2.0)、日志服务(SLS)、观测数据租户(Workspace)、地域(Region)等平台与入口概念,并详解了Trace、Span、Log、Metric、Event等核心数据模型及其关键字段。文档还涵盖了PromQL告警规则、SPL日志查询、Kubernetes实体层级、诊断方法论术语等内容,同时提供了根因分析的命名规范、提交格式(JSONL)、时间窗口要求及常见问题解答,旨在帮助参赛者高效定位并解决系统故障。
1357 2
|
人工智能 运维 监控
2025 AI 原生编程挑战赛 数据获取文档
本文介绍了参赛者如何配置阿里云服务以参加AI运维赛。首先开通阿里云日志服务,随后创建RAM用户并为其分配访问权限。接着为该用户授权,确保其具备读取数据的权限。最后,可选地创建或重新生成AccessKey以用于后续的数据查询操作。整个流程帮助选手完成基础环境配置,以便使用阿里云日志服务进行数据分析。
2770 2
|
运维 监控 存储
使用SPL快速诊断问题根因 -- 错误分析指南
本内容记录了一次故障排查过程
2219 0