首次!阿里云可观测技术论文登上两大国际顶会

简介: 首次!阿里云可观测技术论文登上两大国际顶会

近日,阿里云可观测技术两篇论文分别入选软件工程领域两大顶级国际会议ASPLOS、ICSE,论文创造性地提出一套全新链路追踪框架Mint和一项故障诊断方法FAMOS,这是阿里云可观测技术论文首次被国际顶级会议录入,标志着阿里云可观测追踪框架设计及故障诊断方法的研究获得学术界的认可。




可观测链路追踪领域论文首次入选顶会

在入选顶会ASPLOS的论文《Mint: Cost-Efficient Tracing with All Requests Collection via Commonality and Variability Analysis》中,阿里云提出了一套全新链路追踪框架Mint,该框架通过“共性+差异”的新采样范式,既能保留重要信息,又能减少数据体量,实现了优化存储与网络开销的同时,捕获所有请求的调用链信息,让开发者可以借助丰富的数据更好的理解与管理复杂的应用系统。该论文是阿里云在可观测链路追踪(Tracing)领域入选的首篇顶会文章。



在传统的链路追踪框架中,分布式调用链作为追踪和观测分布式系统中请求的调用路径的主要手段,尽管提供了丰富的信息,但通常伴有庞大的数据体量。这种追踪方式采用“非黑即白”的采样策略:要么完整记录下所有信息(就像全程开着灯),要么几乎不记录任何信息(完全关着灯),没有中间状态,这就造成要么数据太多处理不过来而丢失关键信息,要么因为数据太少而无法准确地理解整个情况。就像100个不同的舞台剧剧本,保留其中60个,删除另外40个。



Mint框架如同给调用链进行了一次聪明的整理,它首先找出所有操作中的“共性”,单独标记出每次操作特有“差异”,接着再把所有的共性聚合起来处理,同时对所有的差异进行过滤,这样可以让系统更加高效地记录和分析每一次的操作流程,同时也能更好地理解整个系统的运行情况。就像100个舞台剧剧本都有相同的开场白和结束语,但中间的舞蹈与对话都不同,通过识别并保留这些剧本中的共性(开场和结束)和差异(舞蹈和对话),更容易高效地区分与组织这些内容。


实验结果表明,链路追踪框架Mint能够捕获所有调用链,在优化存储(平均减少至2.7%)和网络开销(平均减少至4.2%)的同时,保留更多调用链信息,且该框架足够轻量化,适合在生产环境中使用。


FAMOS故障诊断方法入选顶会ICSE


阿里云入选顶会ICSE的论文《FAMOS: Fault diagnosis for Microservice Systems through Effective Multi-modal Data Fusion》则是提出了一项名为FAMOS的故障诊断方法



FAMOS故障诊断针对IT系统中由于软硬件环境及依赖关系复杂导致的单一数据源难以定位问题的情况,为每种类型的数据(如日志、指标、追踪等)设计最佳特征提取方式来减少信息丢失,并采用多种手段捕捉不同数据源之间的关联性,增强了故障识别的准确性和效率。


就像侦探在侦破案件时,将目击者的描述(声音)、现场的照片(图像)以及案发时的监控录像(视频)按不同类型进行提取,并将这些信息进行关联分析,从而揭示案件背后的真相。


两篇论文涉及的科研成果目前已部分在阿里云可观测产品家族日志服务SLS、应用实时监控服务ARMS等产品模块深度集成与整合。在未来,阿里云可观测产品将为众多云上企业持续提供业界领先的大模型算法与可观测应用能力。



阿里云已为全球近百个可用区的百万企业级用户提供高效便捷、安全稳定的可观测服务。如叠纸通过使用日志服务SLS实时监控新游《无限暖暖》全球同步上线运行状况,对关键云资源用量进行监控和告警;茶百道基于应用实时监控服务ARMS快速建立运维观测与响应能力,故障恢复效率提升50%以上;极氪基于日志服务SLS与应用实时监控服务ARMS构建应急响应与ChatOps协同机制,告警平均恢复耗时缩短50%。


ASPLOS(International Conference on Architectural Support for Programming Languages and Operating Systems) 作为ACM编程语言和操作系统架构支持的国际会议,是跨学科计算机系统研究的顶级学术会议,会议聚焦计算机架构、网络、存储、剖析与测试、安全性与可靠性等相关领域,论文接收率12.7%。

ICSE(International Conference on Software Engineering)是软件工程领域的顶级国际会议,每年由ACM主办。自1975年首次召开以来,ICSE会议已经发展成为软件工程学术界和工业界最重要的会议之一,每年论文录取率大约在15%~20%之间。


/ END /

目录
相关文章
|
7月前
|
存储 运维 监控
首次!阿里云可观测技术论文登上两大国际顶会
首次!阿里云可观测技术论文登上两大国际顶会
|
7月前
|
存储 人工智能 监控
2025 年可观测 10 大趋势预测
2025 年可观测 10 大趋势预测
202 0
|
6月前
|
人工智能 JSON 安全
MCP Server 实践之旅第 1 站:MCP 协议解析与云上适配
本文深入解析了Model Context Protocol(MCP)协议,探讨其在AI领域的应用与技术挑战。MCP作为AI协作的“USB-C接口”,通过标准化数据交互解决大模型潜力释放的关键瓶颈。文章详细分析了MCP的生命周期、传输方式(STDIO与SSE),并提出针对SSE协议不足的优化方案——MCP Proxy,实现从STDIO到SSE的无缝转换。同时,函数计算平台被推荐为MCP Server的理想运行时,因其具备自动弹性扩缩容、高安全性和按需计费等优势。最后,展望了MCP技术演进方向及对AI基础设施普及的推动作用,强调函数计算助力MCP大规模落地,加速行业创新。
1572 77
|
3月前
|
数据采集 人工智能 Java
阿里云正式开源 LoongSuite:打造 AI 时代的高性能低成本可观测采集套件
AI Agent技术架构的演进正在重塑软件工程实践方式。开发者可通过智能编程助手提升效率,也可依托专业框架构建智能体系统。技术生态呈现多维度发展,涵盖高代码与低代码方案,并支持Java和Python等多语言。新型开发范式如AutoGen和LangChain降低了开发门槛。LoongSuite作为可观测采集套件,助力企业高效构建AI时代可观测体系,推动标准化数据规范,提升系统稳定性与运维效率。
|
6月前
|
存储 人工智能 Prometheus
剑指大规模 AI 可观测,阿里云 Prometheus 2.0 应运而生
本文介绍了阿里云Prometheus 2.0方案,针对大规模AI系统的可观测性挑战进行全面升级。内容涵盖数据采集、存储、计算、查询及生态整合等维度。 Prometheus 2.0引入自研LoongCollector实现多模态数据采集,采用全新时序存储引擎提升性能,并支持RecordingRule与ScheduleSQL预聚合计算。查询阶段提供跨区域、跨账号的统一查询能力,结合PromQL与SPL语言增强分析功能。此外,该方案已成功应用于阿里云内部AI系统,如百炼、通义千问等大模型全链路监控。未来,阿里云将发布云监控2.0产品,进一步完善智能观测技术栈。
592 42
|
4月前
|
弹性计算 运维 监控
资源利用率提升50%:Serverless 驱动国诚投顾打造智能投顾新范式
通过与阿里云深度合作,国诚投顾完成了从传统 ECS 架构向云原生 Serverless 架构的全面转型。新的技术架构不仅解决了原有系统在稳定性、弹性、运维效率等方面的痛点,还在成本控制、API 治理、可观测性、DevOps 自动化等方面实现了全方位升级。
348 19
|
4月前
|
人工智能 弹性计算 运维
亚太唯一,阿里云Serverless计算产品进入Forrester领导者象限
Forrester发布Serverless开发平台评估报告《Forrester Wave™: Serverless Development Platforms, Q2 2025》:在21项测评中,阿里云函数计算FC和Serverless应用引擎SAE的产品能力拿到了9项最高分。阿里云成功进入领导者象限,是国内唯一进入该象限的科技公司。
|
11月前
|
边缘计算 运维 Cloud Native
浙江省科技进步奖一等奖!阿里云云原生技术实现新突破
科技成果鉴定委员会高度评价该技术,“项目研发难度大,成果创新性强,对促进关键技术进步及自主可控具有重大意义,成果在国内外开源社区产生了广泛影响,并成功应用于互联网、交通、金融、物流、医疗等多个行业。”
504 12
|
6月前
|
人工智能 Java 决策智能
Java版Manus实现来了,Spring AI Alibaba发布开源OpenManus实现
此次官方发布的 Spring AI Alibaba OpenManus 实现,包含完整的多智能体任务规划、思考与执行流程,可以让开发者体验 Java 版本的多智能体效果。它能够根据用户的问题进行分析,操作浏览器,执行代码等来完成复杂任务等。
1350 57
|
8月前
|
人工智能 搜索推荐 语音技术
传音X阿里云,乘AI出海!
传音X阿里云,乘AI出海!
174 1