首次!阿里云可观测技术论文登上两大国际顶会

简介: 首次!阿里云可观测技术论文登上两大国际顶会

近日,阿里云可观测技术两篇论文分别入选软件工程领域两大顶级国际会议ASPLOS、ICSE,论文创造性地提出一套全新链路追踪框架Mint和一项故障诊断方法FAMOS,这是阿里云可观测技术论文首次被国际顶级会议录入,标志着阿里云可观测追踪框架设计及故障诊断方法的研究获得学术界的认可。



可观测链路追踪领域论文首次入选顶会


在入选顶会ASPLOS的论文《Mint: Cost-Efficient Tracing with All Requests Collection via Commonality and Variability Analysis》中,阿里云提出了一套全新链路追踪框架Mint,该框架通过“共性+差异”的新采样范式,既能保留重要信息,又能减少数据体量,实现了优化存储与网络开销的同时,捕获所有请求的调用链信息,让开发者可以借助丰富的数据更好的理解与管理复杂的应用系统。该论文是阿里云在可观测链路追踪(Tracing)领域入选的首篇顶会文章。



在传统的链路追踪框架中,分布式调用链作为追踪和观测分布式系统中请求的调用路径的主要手段,尽管提供了丰富的信息,但通常伴有庞大的数据体量。这种追踪方式采用“非黑即白”的采样策略:要么完整记录下所有信息(就像全程开着灯),要么几乎不记录任何信息(完全关着灯),没有中间状态,这就造成要么数据太多处理不过来而丢失关键信息,要么因为数据太少而无法准确地理解整个情况。就像100个不同的舞台剧剧本,保留其中60个,删除另外40个。



Mint框架如同给调用链进行了一次聪明的整理,它首先找出所有操作中的“共性”,单独标记出每次操作特有“差异”,接着再把所有的共性聚合起来处理,同时对所有的差异进行过滤,这样可以让系统更加高效地记录和分析每一次的操作流程,同时也能更好地理解整个系统的运行情况。就像100个舞台剧剧本都有相同的开场白和结束语,但中间的舞蹈与对话都不同,通过识别并保留这些剧本中的共性(开场和结束)和差异(舞蹈和对话),更容易高效地区分与组织这些内容。


实验结果表明,链路追踪框架Mint能够捕获所有调用链,在优化存储(平均减少至2.7%)和网络开销(平均减少至4.2%)的同时,保留更多调用链信息,且该框架足够轻量化,适合在生产环境中使用。


FAMOS故障诊断方法入选顶会ICSE


阿里云入选顶会ICSE的论文《FAMOS: Fault diagnosis for Microservice Systems through Effective Multi-modal Data Fusion》则是提出了一项名为FAMOS的故障诊断方法



FAMOS故障诊断针对IT系统中由于软硬件环境及依赖关系复杂导致的单一数据源难以定位问题的情况,为每种类型的数据(如日志、指标、追踪等)设计最佳特征提取方式来减少信息丢失,并采用多种手段捕捉不同数据源之间的关联性,增强了故障识别的准确性和效率。

就像侦探在侦破案件时,将目击者的描述(声音)、现场的照片(图像)以及案发时的监控录像(视频)按不同类型进行提取,并将这些信息进行关联分析,从而揭示案件背后的真相。

两篇论文涉及的科研成果目前已部分在阿里云可观测产品家族日志服务SLS、应用实时监控服务ARMS等产品模块深度集成与整合。在未来,阿里云可观测产品将为众多云上企业持续提供业界领先的大模型算法与可观测应用能力。



阿里云已为全球近百个可用区的百万企业级用户提供高效便捷、安全稳定的可观测服务。如叠纸通过使用日志服务SLS实时监控新游《无限暖暖》全球同步上线运行状况,对关键云资源用量进行监控和告警;茶百道基于应用实时监控服务ARMS快速建立运维观测与响应能力,故障恢复效率提升50%以上;极氪基于日志服务SLS与应用实时监控服务ARMS构建应急响应与ChatOps协同机制,告警平均恢复耗时缩短50%。


ASPLOS(International Conference on Architectural Support for Programming Languages and Operating Systems) 作为ACM编程语言和操作系统架构支持的国际会议,是跨学科计算机系统研究的顶级学术会议,会议聚焦计算机架构、网络、存储、剖析与测试、安全性与可靠性等相关领域,论文接收率12.7%。


ICSE(International Conference on Software Engineering)是软件工程领域的顶级国际会议,每年由ACM主办。自1975年首次召开以来,ICSE会议已经发展成为软件工程学术界和工业界最重要的会议之一,每年论文录取率大约在15%~20%之间。

相关文章
|
测试技术 UED 开发者
优秀的developer----自测优势及规范
本文章针对于弹性计算项目,合作方出的自测规范,仅供参考
8712 0
优秀的developer----自测优势及规范
|
存储 人工智能 资源调度
|
8月前
|
存储 运维 监控
首次!阿里云可观测技术论文登上两大国际顶会
首次!阿里云可观测技术论文登上两大国际顶会
170 1
|
Shell Python
miniconda使用体验
## 简介 miniconda是什么呢? 这里简单用一个公式来说明 miniconda = virtualenv + pyenv + pypi源 通过miniconda可以实现创建隔离的python包环境,下载特定的python包版本,使用conda源上编译好的whl包。可以说一应俱全。 ## 安装 miniconda在Mac可以直接用Brew安装,一行命令 `brew install mini
1148 0
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
421 9
|
10月前
|
弹性计算 分布式计算 监控
祝贺叠纸新游《无限暖暖》全球开服!阿里云全球基础设施持续护航
祝贺叠纸新游《无限暖暖》全球开服!阿里云全球基础设施持续护航
336 5
|
监控 Java Go
深入探索 RUM 与全链路追踪:优化数字体验的利器
本文主要介绍了基于 OpenTeletemetry 与 W3C 协议构建端到端全链路的解决方案,同时探讨了 RUM 与端到端链路集成的最佳实践,希望可以为大家在生产环境落地应用提供一些参考。
670 127
|
10月前
|
SQL 存储 缓存
Flink SQL Deduplication 去重以及如何获取最新状态操作
Flink SQL Deduplication 是一种高效的数据去重功能,支持多种数据类型和灵活的配置选项。它通过哈希表、时间窗口和状态管理等技术实现去重,适用于流处理和批处理场景。本文介绍了其特性、原理、实际案例及源码分析,帮助读者更好地理解和应用这一功能。
704 14
|
安全 Cloud Native 算法
云原生安全-云计算发展白皮书(2020年)解读
云原生安全-云计算发展白皮书(2020年)解读
322 0
|
边缘计算 人工智能 运维
《边缘云技术演进与发展白皮书》——一、边缘云计算发展概述
《边缘云技术演进与发展白皮书》——一、边缘云计算发展概述
798 0