阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,现在购买有包月5折包年4折起活动,GPU 计算型 gn6i实例包月优惠价1260.75元/1个月起,包年12106.35元/1年起;GPU 计算型 gn6v实例包月优惠价2862.75元/1个月起,包年27485.55元/1年起。本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
一、阿里云GPU云服务器产品优势
阿里云GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式,神行工具包(DeepGPU)是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。下面介绍GPU云服务器和神行工具包(DeepGPU)的优势。
附:什么是神行工具包(DeepGPU)
神行工具包(DeepGPU)是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力。GPU云服务器搭配神行工具包(DeepGPU)中的组件可以帮助您更方便地利用阿里云的云上GPU资源,高效完成深度学习、机器学习、大数据分析等任务。
1、GPU产品优势
1.1 覆盖范围广阔:
阿里云GPU云服务器在全球多个地域实现规模部署,覆盖范围广,结合弹性供应、弹性伸缩等交付方式,能够很好地满足您业务的突发需求。
1.2 计算能力超强:
阿里云GPU云服务器配备业界超强算力的GPU计算卡,结合高性能CPU平台,单实例可提供高达1000 TFLOPS的混合精度计算性能。
1.3 网络性能出色:
阿里云GPU云服务器实例的VPC网络最大支持450万的PPS及32 Gbit/s的内网带宽。在此基础上,超级计算集群产品中,节点间额外提供高达50 Gbit/s的RDMA网络,满足节点间数据传输的低延时高带宽要求。
1.4 购买方式灵活:
支持灵活的资源付费模式,包括包年包月、按量付费、抢占式实例、预留实例券、存储容量单位包。您可以按需要购买,避免资源浪费。
2、神行工具包(DeepGPU)优势
神行工具包中的组件主要包括AI加速器Deepytorch、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU,其各自具有以下核心优势。
2.1 AI加速器Deepytorch
Deepytorch是阿里云自研的AI加速器,为生成式AI和大模型场景提供训练和推理加速功能,在训练和推理方面,具有更好的性能优势和易用性。该AI加速器包含Deepytorch Training和Deepytorch Inference两个软件包。
训练和推理性能显著提升
Deepytorch Training通过整合分布式通信和计算图编译的性能特点,可以实现端到端训练性能的显著提升,使得模型训练迭代速度更快,成本更低。
Deepytorch Inference通过编译加速的方式减少模型推理的延迟,从而提高模型的实时性和响应速度,能显著提升模型的推理加速性能。易用性好
Deepytorch Training具有充分兼容开源生态等特点,兼容PyTorch主流版本,支持主流分布式训练框架。例如DeepSpeed、PyTorch FSDP或Megatron-LM等。
Deepytorch Inference无需您指定精度和输入尺寸,通过即时编译的方式,提供较好的易用性,代码侵入量较少,从而降低代码复杂度和维护成本。
2.2 AI通信加速库DeepNCCL
DeepNCCL是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。
通信优化效果显著
支持单机优化和多机优化,相比NCCL原生在性能上提升了20%以上。无感加速
多GPU互联通信,无感地加速分布式训练或多卡推理等任务。
2.3 推理引擎DeepGPU-LLM
DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)的推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。
高性能、低延迟
支持多GPU并行(Tensor Parallel)和多卡之间的通信优化,从而提高多GPU并行计算的效率和速度。支持多种主流模型
支持通义千问Qwen系列、Llama系列、ChatGLM系列以及Baichuan系列等主流模型,满足不同场景下的模型推理。
2.4 AI分布式训练通信优化库AIACC-ACSpeed
AIACC-ACSpeed(AIACC 2.0-AIACC Communication Speeding)作为阿里云自研的AI训练加速器,专注于分布式训练场景的通信优化功能,在训练场景下具有其显著的性能优势,提高计算效率的同时能够降低使用成本。
定制优化
提供针对PyTorch热门框架的特定优化,适用于所有模型的训练场景。统一加速
基于nccl-plugin组件功能,提供对TensorFlow、Caffe、MXNet多种人工智能框架的统一加速。性能深度优化
基于阿里云IaaS基础资源(GPU、CPU、网络以及I/O等基础设施)提供性能的深度优化。弹性伸缩
基于阿里云IaaS基础资源,兼容PyTorch原生特性,支持一键构建和弹性伸缩功能。开源兼容
轻量便捷、开源兼容。您基于开源框架编写的算法代码或模型代码,几乎无需进行修改。
2.5 AI训练计算优化编译器AIACC-AGSpeed
AIACC-AGSpeed(简称AGSpeed)作为阿里云自研的AI训练计算优化编译器,针对PyTorch热门框架训练场景中存在的计算瓶颈进行深度优化,具有其显著的性能优势,在提高训练效率的同时能够降低使用成本。
定制优化
提供针对PyTorch热门框架的特定优化,适用于PyTorch框架的所有模型的训练场景。无感加速
通过TorchScript在PyTorch框架中获取后端编译器可优化的静态计算图,属于当前较成熟的方案,但该方案仍无法做到完全的准确与无感。相比PyTorch原生提供的TorchScript前端,AGSpeed具有无感加速的性能优势。性能深度优化
基于阿里云IaaS基础资源(GPU、CPU、网络以及I/O等基础设施)提供性能的深度优化。开源兼容
轻量便捷、开源兼容。您基于开源框架编写的算法代码或模型代码,几乎无需进行修改。
2.6 集群极速部署工具FastGPU
使用FastGPU构建人工智能计算任务时,您无需关心IaaS层的计算、存储、网络等资源部署操作,简单适配即可一键部署,帮助您节省时间成本以及经济成本。
节省时间
一键部署集群。无需分别进行IaaS层计算、存储、网络等资源的部署操作,将部署集群的时间缩短到5分钟。
通过接口和命令行管理任务和资源,方便快捷。节省成本
当数据集完成准备工作并触发训练或推理任务后,才会触发GPU实例资源的购买。当训练或推理任务结束后,将自动释放GPU实例资源。实现了资源生命周期与任务同步,帮助您节省成本。
支持创建抢占式实例。易用性好
所有资源均为IaaS层,可访问、可调试。
满足可视化和log管理需求,保证任务可回溯。
2.7 GPU容器共享技术cGPU
GPU容器共享技术cGPU拥有节约成本和灵活分配资源的优势,从而实现您业务的安全隔离。
节约成本
随着显卡技术的不断发展和半导体制造工艺的进步,单张GPU卡的算力越来越强,同时价格也越来越高。但在很多的业务场景下,一个AI应用并不需要一整张的GPU卡。cGPU的出现让多个容器共享一张GPU卡,从而实现业务的安全隔离,提升GPU利用率,节约用户成本。可灵活分配资源
cGPU实现了物理GPU的资源任意划分,您可以按照不同比例灵活配置。
支持按照显存和算力两个维度划分,您可以根据需要灵活分配。
cGPU拥有灵活可配置的算力分配策略,支持三种调度策略的实时切换,满足了AI负载的峰谷能力的要求。
二、阿里云GPU云服务器应用场景
GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景,神行工具包(DeepGPU)为了配合GPU云服务器的计算服务增强能力,也适用于所有AI训练场景和AI推理场景。下面介绍GPU云服务器和神行工具包(DeepGPU)的具体应用场景。
1、GPU云服务器应用场景
1.1 直播实时视频转码
阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码,以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下:
- GPU云服务器支持高并发实时视频流5000路以上,并逐步上升到峰值6200路每分钟,且顺利度过流量洪峰。
- GPU云服务器参与实时家居渲染图片生成等业务,首次提供了大量算力强劲的ebmgn6v裸金属实例,支持淘宝渲染方提升几十倍的渲染性能,第一次实现秒级实时渲染,完成总计超过5000张大型家居渲染图。
1.2 AI训练
GPU计算型实例规格族gn6v和gn6e具有优异的通用GPU计算加速能力,适合为深度学习提供加速引擎。具体说明如下:
- gn6v实例配备具有16 GB显存的NVIDIA V100 GPU计算卡,gn6e实例配备具有32 GB显存的NVIDIA V100 GPU计算卡,单节点可提供高达1000 TFlops的混合精度计算能力。
- 实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
- 实例搭配容器服务使用,可以简化部署和运维的复杂度,提供资源调度服务。
1.3 AI推理
GPU计算型实例规格族gn6i具有优异的AI推理能力,满足了深度学习(尤其是推理)场景下的算力需求。具体说明如下:
- gn6i实例基于配备NVIDIA Tesla T4 GPU计算卡,单精度浮点计算能力最高可达8.1 TFlops,int8定点运算处理能力最高可达130 TOPS,支持混合精度。
- 单卡功耗仅75 W,具有极高的性能功耗比。
- 实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
- 实例搭配容器服务使用,可以简化部署和运维的复杂度,并提供资源调度服务。
- 镜像市场提供预装NVIDIA GPU驱动和深度学习框架的镜像,简化您的部署操作。
1.4 云端图形工作站
GPU计算型实例规格族gn6i采用基于Turing架构的NVIDIA Tesla T4 GPU加速器,具有极佳的图形计算能力。gn6i实例可以结合云桌面产品提供云端图形工作站服务,应用于影视动画设计、工业设计、医疗成像、高性能计算的结果呈现等场景。
2、神行工具包(DeepGPU)应用场景
神行工具包中的组件主要包括神龙AI加速引擎AIACC(AIACC-Training和AIACC-Inference)、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU,该工具主要适用于AI训练和AI推理场景。具体说明如下:
2.1 AI训练
AIACC适用于所有AI训练场景和AI推理场景。AIACC-ACSpeed和AIACC-AGSpeed适用于所有基于PyTorch框架的AI训练场景,并针对PyTorch框架可以实现定制化的深度优化功能。
AIACC进行AI训练的典型业务场景如下所示:
场景 | 适用模型 | 常用存储 |
---|---|---|
图像分类、图像识别 | MXNet框架的模型 | 并行文件存储系统CPFS |
CTR预估 | TensorFlow框架的Wide&Deep模型 | 文件系统HDFS |
NLP自然语言处理 | TensorFlow框架的Transformer、Bert模型 | 并行文件存储系统CPFS |
AIACC-ACSpeed进行AI训练的典型业务场景如下所示:
场景 | 适用模型 | 常用存储 |
---|---|---|
图像分类、图像识别 | Resnet、VGG16模型等,以及Stable Diffusion等AIGC模型 | 并行文件存储系统CPFS |
CTR预估 | Wide&Deep模型 | 文件系统HDFS |
NLP自然语言处理 | Transformer、Bert模型等 | 并行文件存储系统CPFS |
大模型 | Megatron-LM、DeepSpeed等混合并行的LLM大模型场景的Pretrain和Finetune | 并行文件存储系统CPFS |
AGSpeed进行AI训练的典型业务场景如下所示:
场景 | 适用模型 |
---|---|
图像分类 | ResNet、MobileNet等模型 |
图像分割 | Unet3D等模型 |
NLP自然语言处理 | BERT、GPT2、T5等模型 |
2.2 AI推理
AIACC能够适用于所有AI推理场景。该工具进行AI推理的典型业务场景如下所示:
场景 | 适用模型 | 配置信息 | 性能优化措施 |
---|---|---|---|
视频超分推理 | 超分模型 | T4 GPU | 进行了如下性能优化,将性能提升至原来的2.7倍。 视频解码移植到GPU。 前后处理移植到GPU。 自动凑满一次运算所需的数据集大小。 卷积的深度优化。 |
图像合成在线推理 | GAN模型 | T4 GPU | 进行了如下性能优化,将性能提升至原来的4倍。 前后处理移植到GPU。 自动凑满一次运算所需的数据集大小。 卷积的深度优化。 |
CTR预估推理 | Wide&Deep模型 | M40 GPU | 进行了如下性能优化,将性能提升至原来的6.1倍。 流水线优化。 模型拆分。 子模型分别优化。 |
自然语言处理推理 | Bert模型 | T4 GPU | 进行了如下性能优化,将性能提升至原来的3.3倍。 前后处理流水线优化。 自动凑满一次运算所需的数据集大小。 Kernel深入优化。 |
三、阿里云GPU云服务器最新价格
![阿里云gpu云服务器活动图.png
如上图所示,阿里云推出了GPU云服务器首购活动:https://www.aliyun.com/product/ecs/gpu
首购活动包月5折,包年低至4折起。官网折扣包月低至6折起,包年低至5折起,例如GPU 计算型 gn6i实例4核15G活动价格为1681.00元/1个月、10164.00元/6个月、16141.80元/1年。详细配置及活动价格如下表所示:
gpu实例规格 | 配置 | 显存 | 内存 | 活动价格 |
---|---|---|---|---|
GPU 计算型 gn6i(ecs.gn6i-c4g1.xlarge) | 4 vCPU 15 GiB | 16G显存T4计算卡 | 最高配置372G DDR4内存 | 1681.00元/1个月起 10164.00元/6个月起 16141.80元/1年起 |
GPU 计算型 gn6i(ecs.gn6i-c8g1.2xlarge) | 8 vCPU 31 GiB | 16G显存T4计算卡 | 最高配置372G DDR4内存 | 2026.00元/1个月起 12216.00元/6个月起 19455.60元/1年起 |
GPU 计算型 gn6i(ecs.gn6i-c16g1.4xlarge) | 16 vCPU 62 GiB | 16G显存T4计算卡 | 最高配置372G DDR4内存 | 2372.50元/1个月起 14235.00元/6个月起 22751.40元/1年起 |
GPU 计算型 gn6i(ecs.gn6i-c24g1.6xlarge) | 24 vCPU 93 GiB | 16G显存T4计算卡 | 最高配置372G DDR4内存 | 2485.00元/1个月起 14892.00元/6个月起 23964.00元/1年起 |
GPU 计算型 gn6i(ecs.gn6i-c24g1.12xlarge) | 48 vCPU 186 GiB | 16G显存T4计算卡 | 最高配置372G DDR4内存 | 4960.00元/1个月起 29742.00元/6个月起 47591.40元/1年起 |
GPU 计算型 gn6i(ecs.gn6i-c24g1.24xlarge) | 96 vCPU 372 GiB | 16G显存T4计算卡 | 最高配置372G DDR4内存 | 9910.00元/1个月起 59460.00元/6个月起 95111.40元/1年起 |
GPU 计算型 gn6i(ecs.gn6i-c40g1.10xlarge) | 40 vCPU 155 GiB | 16G显存T4计算卡 | 最高配置372G DDR4内存 | 3563.45元/1个月起 21398.71元/6个月起 34345.94元/1年起 |
GPU 计算型 gn6v(ecs.gn6v-c8g1.2xlarge) | 8 vCPU 32 GiB | 16G显存V100计算卡 | 最高配置336G DDR4内存 | 3817.00元/1个月起 22902.00元/6个月起 36647.40元/1年起 |
GPU 计算型 gn6v(ecs.gn6v-c8g1.4xlarge) | 16 vCPU 64 GiB | 16G显存V100计算卡 | 最高配置336G DDR4内存 | 7627.00元/1个月起 45840.00元/6个月起 73223.40元/1年起 |
GPU 计算型 gn6v(ecs.gn6v-c8g1.8xlarge) | 32 vCPU 128 GiB | 16G显存V100计算卡 | 最高配置336G DDR4内存 | 15247.00元/1个月起 91500.00元/6个月起 146508.00元/1年起 |
GPU 计算型 gn6v(ecs.gn6v-c8g1.16xlarge) | 64 vCPU 256 GiB | 16G显存V100计算卡 | 最高配置336G DDR4内存 | 30490.00元/1个月起 183000.00元/6个月起 292812.00元/1年起 |
GPU 计算型 gn6v(ecs.gn6v-c10g1.20xlarge) | 82 vCPU 336 GiB | 16G显存V100计算卡 | 最高配置336G DDR4内存 | 31647.50元/1个月起 189825.00元/6个月起 303828.00元/1年起 |
GPU 计算型 gn7i(ecs.gn7i-c32g1.8xlarge) | 32 vCPU 188 GiB | 24G显存A10计算卡 | 最高配置752G DDR4内存 | 3203.99元/1个月起 19223.94元/6个月起 30764.30元/1年起 |
GPU计算型 gn5(ecs.gn5-c4g1.xlarge) | 4 vCPU 30 GiB | 16G显存 | P100内存 | 1847.50元/1个月起 11163.00元/6个月起 17872.80元/1年起 |
GPU计算型 gn5(ecs.gn5-c8g1.2xlarge) | 8 vCPU 60 GiB | 16G显存 | P100内存 | 3688.50元/1个月起 22131.00元/6个月起 35413.80元/1年起 |
GPU计算型 gn5(ecs.gn5-c8g1.4xlarge) | 16 vCPU 120 GiB | 16G显存 | P100内存 | 4453.00元/1个月起 26640.00元/6个月起 42628.20元/1年起 |
GPU计算型 gn5(ecs.gn5-c8g1.8xlarge) | 32 vCPU 240 GiB | 16G显存 | P100内存 | 8885.50元/1个月起 53235.00元/6个月起 85180.20元/1年起 |
GPU计算型 gn5(ecs.gn5-c8g1.14xlarge) | 54 vCPU 480 GiB | 16G显存 | P100内存 | 17738.00元/1个月起 106428.00元/6个月起 170421.60元/1年起 |
GPU计算型 gn5(ecs.gn5-c28g1.7xlarge) | 28 vCPU 112 GiB | 16G显存 | P100内存 | 3445.50元/1个月起 20673.00元/6个月起 33081.00元/1年起 |
GPU计算型 gn5(ecs.gn5-c28g1.14xlarge) | 56 vCPU 224 GiB | 16G显存 | P100内存 | 6883.50元/1个月起 41379.00元/6个月起 66085.80元/1年起 |
综上所述:阿里云GPU云服务器凭借其卓越的产品优势、广泛的应用场景以及极具竞争力的价格,成为了企业在AI时代转型升级的首选。从深度学习到科学计算,从图形可视化到视频处理,阿里云GPU云服务器以其强大的计算能力和灵活的资源付费模式,满足了企业的多样化需求。同时,神行工具包(DeepGPU)的加持,更是进一步提升了AI训练和推理的效率。在优惠活动的加持下,阿里云GPU云服务器无疑是企业拥抱AI、实现智能化转型的明智之选。购买之前建议先了解一下当下是否有优惠券或者代金券可以领取,阿里云官方会不定期通过云小站平台等地址推出满减代金券,如果有的话,先领券再购买,可以在活动价基础上进一步获得减免,更加实惠。