首次!阿里云可观测技术论文登上两大国际顶会

在线体验各类最新模型,更有模型 免费Token 额度领取!
立即体验
简介: 首次!阿里云可观测技术论文登上两大国际顶会

近日,阿里云可观测技术两篇论文分别入选软件工程领域两大顶级国际会议ASPLOS、ICSE,论文创造性地提出一套全新链路追踪框架Mint和一项故障诊断方法FAMOS,这是阿里云可观测技术论文首次被国际顶级会议录入,标志着阿里云可观测追踪框架设计及故障诊断方法的研究获得学术界的认可。



可观测链路追踪领域论文首次入选顶会


在入选顶会ASPLOS的论文《Mint: Cost-Efficient Tracing with All Requests Collection via Commonality and Variability Analysis》中,阿里云提出了一套全新链路追踪框架Mint,该框架通过“共性+差异”的新采样范式,既能保留重要信息,又能减少数据体量,实现了优化存储与网络开销的同时,捕获所有请求的调用链信息,让开发者可以借助丰富的数据更好的理解与管理复杂的应用系统。该论文是阿里云在可观测链路追踪(Tracing)领域入选的首篇顶会文章。



在传统的链路追踪框架中,分布式调用链作为追踪和观测分布式系统中请求的调用路径的主要手段,尽管提供了丰富的信息,但通常伴有庞大的数据体量。这种追踪方式采用“非黑即白”的采样策略:要么完整记录下所有信息(就像全程开着灯),要么几乎不记录任何信息(完全关着灯),没有中间状态,这就造成要么数据太多处理不过来而丢失关键信息,要么因为数据太少而无法准确地理解整个情况。就像100个不同的舞台剧剧本,保留其中60个,删除另外40个。



Mint框架如同给调用链进行了一次聪明的整理,它首先找出所有操作中的“共性”,单独标记出每次操作特有“差异”,接着再把所有的共性聚合起来处理,同时对所有的差异进行过滤,这样可以让系统更加高效地记录和分析每一次的操作流程,同时也能更好地理解整个系统的运行情况。就像100个舞台剧剧本都有相同的开场白和结束语,但中间的舞蹈与对话都不同,通过识别并保留这些剧本中的共性(开场和结束)和差异(舞蹈和对话),更容易高效地区分与组织这些内容。


实验结果表明,链路追踪框架Mint能够捕获所有调用链,在优化存储(平均减少至2.7%)和网络开销(平均减少至4.2%)的同时,保留更多调用链信息,且该框架足够轻量化,适合在生产环境中使用。


FAMOS故障诊断方法入选顶会ICSE


阿里云入选顶会ICSE的论文《FAMOS: Fault diagnosis for Microservice Systems through Effective Multi-modal Data Fusion》则是提出了一项名为FAMOS的故障诊断方法



FAMOS故障诊断针对IT系统中由于软硬件环境及依赖关系复杂导致的单一数据源难以定位问题的情况,为每种类型的数据(如日志、指标、追踪等)设计最佳特征提取方式来减少信息丢失,并采用多种手段捕捉不同数据源之间的关联性,增强了故障识别的准确性和效率。

就像侦探在侦破案件时,将目击者的描述(声音)、现场的照片(图像)以及案发时的监控录像(视频)按不同类型进行提取,并将这些信息进行关联分析,从而揭示案件背后的真相。

两篇论文涉及的科研成果目前已部分在阿里云可观测产品家族日志服务SLS、应用实时监控服务ARMS等产品模块深度集成与整合。在未来,阿里云可观测产品将为众多云上企业持续提供业界领先的大模型算法与可观测应用能力。



阿里云已为全球近百个可用区的百万企业级用户提供高效便捷、安全稳定的可观测服务。如叠纸通过使用日志服务SLS实时监控新游《无限暖暖》全球同步上线运行状况,对关键云资源用量进行监控和告警;茶百道基于应用实时监控服务ARMS快速建立运维观测与响应能力,故障恢复效率提升50%以上;极氪基于日志服务SLS与应用实时监控服务ARMS构建应急响应与ChatOps协同机制,告警平均恢复耗时缩短50%。


ASPLOS(International Conference on Architectural Support for Programming Languages and Operating Systems) 作为ACM编程语言和操作系统架构支持的国际会议,是跨学科计算机系统研究的顶级学术会议,会议聚焦计算机架构、网络、存储、剖析与测试、安全性与可靠性等相关领域,论文接收率12.7%。


ICSE(International Conference on Software Engineering)是软件工程领域的顶级国际会议,每年由ACM主办。自1975年首次召开以来,ICSE会议已经发展成为软件工程学术界和工业界最重要的会议之一,每年论文录取率大约在15%~20%之间。

相关文章
|
消息中间件 Java Shell
RocketMQ的broker启动失败解决
RocketMQ的broker启动失败解决
2549 0
|
存储 运维 监控
首次!阿里云可观测技术论文登上两大国际顶会
首次!阿里云可观测技术论文登上两大国际顶会
486 1
|
6月前
|
人工智能 弹性计算 安全
阿里云GPU服务器购买指南:GPU实例规格、核心优势、2026年费用价格及选择方法
阿里云GPU云服务器(EGS)提供训练、推理、图形渲染等全场景算力,覆盖L20、A10、T4等多元实例,适配大模型、AIGC、智能驾驶等应用。凭借高性能、高安全、弹性伸缩与优化成本,助力企业高效释放AI潜能,选对算力一步到位。
|
人工智能 运维 监控
2025 AI 原生编程挑战赛 数据获取文档
本文介绍了参赛者如何配置阿里云服务以参加AI运维赛。首先开通阿里云日志服务,随后创建RAM用户并为其分配访问权限。接着为该用户授权,确保其具备读取数据的权限。最后,可选地创建或重新生成AccessKey以用于后续的数据查询操作。整个流程帮助选手完成基础环境配置,以便使用阿里云日志服务进行数据分析。
2823 2
|
运维 Prometheus 监控
运维人别熬夜了!大模型已经能帮你盯故障了
运维人别熬夜了!大模型已经能帮你盯故障了
596 0
什么叫高内聚,低耦合 超简单生活例子,让你一看就明白
本文通过生活化的例子解释了高内聚和低耦合的概念,强调了在编写代码时应该追求高内聚(相关功能紧密组合)和低耦合(功能间相互独立,减少相互影响),以提高代码质量和可维护性。
1885 0
|
存储 人工智能 监控
2025 年可观测 10 大趋势预测
下述报告主要整理自各大网站发布的对 2025 年可观测趋势的预测,作者合并同类项汇总 10 个共性的趋势,欢迎大家一起讨论。
|
Kubernetes 测试技术 数据安全/隐私保护
如何使用Vcluster实现Kubernetes中的多租户
如何使用Vcluster实现Kubernetes中的多租户
753 0
|
人工智能 Kubernetes API
3分钟掌握合同比对,思通数科开源工具让法律审查更高效
思通数科AI多模态平台提供开放API,支持与法律机构常用的ERP、CRM等企业系统集成。平台具备Docker、Kubernetes兼容性,支持二次开发和模块扩展,使用户能灵活应对不同业务需求。
1036 3

热门文章

最新文章