阿里云与达摩院合作 AHPA 弹性预测论文被顶会 ICDE 录用

简介: 近日,阿里云容器服务团队与达摩院数据决策团队合作的论文《RobustScaler: QoS-Aware Autoscaling for Complex Workloads》被数据管理与数据库国际顶级会议 ICDE 2022 长文录用。

近日,阿里云容器服务团队与达摩院数据决策团队合作的论文《RobustScaler: QoS-Aware Autoscaling for Complex Workloads》被数据管理与数据库国际顶级会议 ICDE 2022 长文录用。ICDE 和 SIGMOD、VLDB 并称为数据库领域的三大国际顶尖学术会议,入选中国计算机学会(CCF)推荐 A 类国际会议列表。



阿里云容器服务 ACK 管理着海量的 Kubernetes 集群,在集群管理、集群运维等领域积累了丰富的经验,并构建了智能运维平台 CIS(Container Intelligence Service),旨在通过智能化手段解决运维难题。达摩院数据决策团队在时间序列分析/预测/异常监测/AIOps 方向深耕多年,数十篇文章发表在 KDD, SIGMOD, ICDE, AAAI 等顶会和多篇中美专利,获得 2022 ICASSP AIOps Challenge 冠军等多个国际奖项。


如今,企业业务流量往往呈现出明显的波峰、波谷形态,如果采用固定实例数会存在极大的资源浪费。为应用配置弹性伸缩是提升资源利用率的有效方式。


Kubernetes 中现有的弹性伸缩策略如 HPA、CronHPA 等都存在弹性触发滞后的问题,导致应用的服务质量下降。如何在保证应用服务质量的前提下,根据应用的历史数据,基于时序算法提前进行扩缩容呢?


为解决该问题,我们在论文中提出了一种基于非齐次柏松过程(NHPP)和随机约束优化的智能弹性框架 RobustScaler。此外,研发了一种专门的交替方向乘子法 (ADMM)  来有效地训练 NHPP 模型,并证明了基于优化的主动策略可以保证应用的服务质量。 大量实验表明,RobustScaler 在各种实际场景中优于常见的自动伸缩策略,并且在具有复杂周期性的应用中也表现优异。


RobustScaler 算法已经应用于智能运维平台 CIS 的 AHPA 组件中。智能运维平台 CIS 由异常发现、异常定位、异常修复、异常预测四大模块组成,包含定时巡检、网络诊断、运行时诊断、CVE 漏洞修复、应用配置优化等众多功能。AHPA 是 CIS 的核心组件之一,组件架构如下图所示,AHPA 弹性策略可分为主动预测和被动预测。主动预测从历史数据中识别周期性趋势,主动预测下个周期应用的实例数量;被动预测基于应用实时数据设定实例数量,可以很好的应对突发流量。此外,AHPA 还增加了兜底保护策略,用户可以设置实例数量的上下界。AHPA 算法中最终生效的实例数是主动预测、被动预测及兜底策略中的最大值。


AHPA 组件正在公测中,点击申请白名单[1],欢迎大家试用并提宝贵意见。



点击此处查看阿里云容器服务 AHPA 弹性预测产品文档详情。当前 AHPA 已开启用户邀测,欢迎感兴趣的用户点击文档中“提交工单”位置申请白名单,期待您的试用及反馈。


相关链接


[1]申请白名单https://help.aliyun.com/document_detail/412229.html

相关文章
|
3月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
29367 253
|
存储 缓存 弹性计算
阿里巴巴开源 容器镜像加速技术DADI 上手指南
阿里资深技术专家在阿里云开发者社区特别栏目《周二开源日》直播中,介绍刚于3月份开源的容器镜像加速器项目 DADI ,并带大家快速上手使用。本文为直播内容文字整理,看直播回放,请点击文首链接~
阿里巴巴开源 容器镜像加速技术DADI 上手指南
|
数据采集 人工智能 分布式计算
MCP+Hologres+LLM搭建数据分析Agent
本文探讨了LLM大模型在数据分析领域的挑战,并介绍了Hologres结合MCP协议和LLM搭建数据分析Agent的解决方案。传统LLM存在实时数据接入能力不足、上下文记忆短等问题,而Hologres通过高性能数据分析能力和湖仓一体支持,解决了这些痛点。MCP协议标准化了LLM与外部系统的连接,提升集成效率。文中详细描述了如何配置Hologres MCP Server与Claude Desktop集成,并通过TPC-H样例数据展示了分析流程和效果。最后总结指出,该方案显著提高了复杂分析任务的实时性和准确性,为智能决策提供支持。
|
人工智能 运维 安全
阿里云函数计算 AgentRun 全新发布,构筑智能体时代的基础设施
阿里云推出以函数计算为核心的AgentRun平台,通过创新体系解决开发、部署、运维难题,提供全面支持,已在多个真实业务场景验证,是AI原生时代重要基础设施。
|
9月前
|
数据处理 开发工具 开发者
requirement.txt 管理python包依赖
在 Python 项目中,`requirements.txt` 用于记录依赖库及其版本,便于环境复现。本文介绍了多种生成该文件的方法:基础方法使用 `pip freeze`,进阶方法使用 `pipreqs`,专业方法使用 `poetry` 或 `pipenv`,以及手动维护方式。每种方法适用不同场景,涵盖从简单导出到复杂依赖管理,并提供常见问题的解决方案,帮助开发者高效生成精准的依赖列表,确保项目环境一致性。
2744 4
|
监控 Java 网络性能优化
容器内存可观测性新视角:WorkingSet 与 PageCache 监控
本文介绍了 Kubernetes 中的容器工作内存(WorkingSet)概念,它用于表示容器内存的实时使用量,尤其是活跃内存。
57826 121
容器内存可观测性新视角:WorkingSet 与 PageCache 监控
|
缓存 NoSQL 安全
|
机器学习/深度学习 数据采集 弹性计算
甩掉容量规划炸弹:用 AHPA 实现 Kubernetes 智能弹性伸缩
我们提出了一种智能化弹性伸缩方案 AHPA,可以根据历史时序数据进行主动预测,提前扩容,避免弹性滞后。同时,会根据实时数据动态调整主动预测结果,兼容周期变动等场景。
626 81
甩掉容量规划炸弹:用 AHPA 实现 Kubernetes 智能弹性伸缩
|
缓存 Linux Docker
在Docker中,镜像层级压缩如何实现?
在Docker中,镜像层级压缩如何实现?
全双工与半双工技术解析及其应用场景
本文对比了全双工和半双工两种通信模式。全双工允许双向同时传输,提高效率和实时性,适用于手机通信和5G网络,但成本较高。半双工则在单一时段内单向传输,适合共享LAN和TD-SCDMA,实现简单成本低,但实时性较差。选择模式需依据应用场景和需求平衡成本与性能。
1141 4