直播预告 | AHPA 最佳实践:基于 GPU 指标进行弹性预测

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 那么,如何使用 AHPA 基于 GPU 指标进行弹性预测?如何根据业务历史指标,自动识别弹性周期并提前进行容量规划?又如何才能解决弹性滞后的问题,在保证业务稳定性前提下节省成本呢?2022 年 9 月 13 日(周二)15:00--16:00 ,阿里云高级研发工程师 李鹏(元毅)将通过 AHPA 的实践案例分享,与大家共同探讨。

从 VM 时代到了容器时代,云的使用模式正在发生变化,用户对云弹性能力的期望也越来越高。在云原生场景下,资源容量通常难以预估。使用 K8s 原生的 HPA,往往要面对弹性滞后以及配置复杂问题。此外在高性能计算领域,例如深度学习模型训练、推理等场景,通常需要使用 GPU 来做计算加速,这使成本变得更为敏感。


针对上述问题,阿里云容器服务与达摩院决策智能时序团队合作推出了 AHPA(Advanced Horizontal Pod Autoscaler)弹性预测,其主要出发点是基于检测到的周期做“定时规划”,通过规划实现提前扩容的目的,在保证业务稳定的情况下,让你真正实现按需使用。


那么,如何使用 AHPA 基于 GPU 指标进行弹性预测?如何根据业务历史指标,自动识别弹性周期并提前进行容量规划?又如何才能解决弹性滞后的问题,在保证业务稳定性前提下节省成本呢?2022 年 9 月 13 日(周二)15:00--16:00 ,阿里云高级研发工程师 李鹏(元毅)将通过 AHPA 的实践案例分享,与大家共同探讨。感兴趣的伙伴,快快点击下方卡片,锁定本场直播吧!


直播主题


AHPA 最佳实践:基于 GPU 指标进行弹性预测


直播时间


2022 年 9 月 13 日(周二)15:00 —16:00


直播嘉宾


1.jpeg

李鹏(元毅),阿里云高级研发工程师


你将了解


  • 什么是 AHPA (Advanced Horizontal Pod Autoscaler)
  • 如何使用 AHPA 基于 GPU 指标进行弹性预测
  • 如何根据业务历史指标,自动识别弹性周期并提前进行容量规划
  • 如何解决弹性滞后的问题,在保证业务稳定性前提下,节省成本


立刻扫码锁定本场直播


点击此处或扫描海报二维码锁定本场直播

(本次直播将在阿里巴巴云原生视频号、阿里云原生 B 站直播间同步播出,敬请关注~)


2.jpeg

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
Prometheus 监控 Cloud Native
基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介 当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
16360 0
|
人工智能 网络协议 算法
基于阿里云弹性GPU服务的神龙AI加速引擎无缝提升AI训练性能
2023年3月23日14:00(中国时间),NVIDIA GTC开发者大会阿里云开发者社区观看入口正式开放,阿里云高级技术专家林立翔带来了题为《基于阿里云弹性GPU服务的神龙AI加速引擎无缝提升AI训练性能》的分享。
基于阿里云弹性GPU服务的神龙AI加速引擎无缝提升AI训练性能
|
存储 弹性计算 Kubernetes
尝鲜阿里云容器服务Kubernetes 1.16,共享TensorFlow实验室《二》--共享GPU的弹性
上一篇文章《尝鲜阿里云容器服务Kubernetes 1.16,共享TensorFlow实验室》我们讲述了如何通过CGPU的方案来实现CGPU资源的共享和隔离。 本文介绍基于CGPU资源的弹性能力。 ps:下面的说明是基于上一篇文章的环境来进行的描述,环境的搭建请参考上一篇文章。 ## 配置弹性伸缩组 1. 在“集群列表”中目标集群的“更多”的下拉菜单中选中“自动伸缩” ![001.j
624 0
尝鲜阿里云容器服务Kubernetes 1.16,共享TensorFlow实验室《二》--共享GPU的弹性
|
机器学习/深度学习 弹性计算 容器
基于Kubernetes的云上机器学习—GPU弹性扩缩容
### 前言 在深度学习中,要使用大量GPU进行计算。 而GPU往往价格不菲,随着模型变得越复杂,数据量积累,进行深度学习计算需要耗费极大的经济和时间成本。 ### 解决方案 阿里云容器服务提供的深度学习解决方案,基于Kubernetes为核心,支持cluster-autoscaler 进行节点弹性扩缩容。
4011 0
|
监控 Cloud Native 容器
阿里云容器服务Kubernetes 基于GPU指标自动伸缩
### 基于GPU的指标扩缩容 在深度学习训练中,训练完成的模型,通过Serving服务提供模型服务。本文介绍如何构建弹性自动伸缩的Serving服务。 Kubernetes 支持HPA模块进行容器伸缩,默认支持CPU和内存等指标。
4177 0
|
弹性计算 监控 异构计算
【新功能发布】支持GPU计算型实例的GPU相关指标监控与报警
云监控新增ECS服务器GPU计算型实例监控指标。提升GPU实例自运维能力,欢迎使用。
3246 0
|
机器学习/深度学习 人工智能 算法
阿里云弹性GPU服务架构和案例分析
阿里云异构计算产品研发高级专家龙欣在2017年12月7日云栖大会苏州峰会上做了题为《阿里云异构计算平台——加速AI智能创新》的主题演讲。当今人工智能的发展迅速,阿里异构平台很好的应对了这一发展趋势。其中异构计算平台在布局和设计上的思考、阿里云的弹性GPU服务架构以及案例分析以及阿里云的FPGA云计算架构及场景使用等内容都是首次对外详细剖析,很有价值。
4721 0
|
人工智能 弹性计算 云栖大会
【云栖大会】AMD与阿里云达成战略合作 联合发布弹性GPU云计算产品
全球芯片巨头AMD和阿里云联合宣布,将为阿里云的客户提供基于AMD GPU的弹性计算GPU系列产品。
6249 0
|
4月前
|
人工智能 机器人 Serverless
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
586 2
|
5天前
|
关系型数据库 Serverless 异构计算
Serverless 应用引擎产品使用之在阿里云函数计算中使用包含GPU的实例并且镜像超过10GB了如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
26 0