阿里云异构计算类云产品相关知识大全(GPU云服务器、FPGA云服务器等)

简介: 阿里云异构计算云服务器产品可为用户提供了软件与硬件结合的完整服务体系,助力您在人工智能业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。异构计算类云产品包括GPU云服务器、神龙AI加速引擎AIACC、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU、GPU容器共享技术cGPU、弹性加速计算实例EAIS和FPGA云服务器。

阿里云异构计算云服务器产品可为用户提供了软件与硬件结合的完整服务体系,助力您在人工智能业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。异构计算类云产品包括GPU云服务器、神龙AI加速引擎AIACC、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU、GPU容器共享技术cGPU、弹性加速计算实例EAIS和FPGA云服务器。

什么是异构计算

异构计算(Heterogeneous Computing)是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,目前主要包括GPU云服务器、FPGA云服务器和弹性加速计算实例EAIS等。异构计算能够让最适合的专用硬件去服务最适合的业务场景,在特定场景下,异构计算产品比普通的云服务器高出一个甚至更多数量级的性价比和效率。异构计算的显著优势在于实现了让性能、成本和功耗三者均衡的技术,通过让最合适的专用硬件去做最适合的事来调节功耗,从而达到性能和成本的最优化。

随着以深度学习为代表的人工智能技术的飞速发展,AI计算模型越来越复杂和精确,人们对于算力和性能的需求也大幅度增加,因此,越来越多的AI计算都采用异构计算来实现性能加速。阿里云异构计算云服务研发了云端AI加速器,通过统一的框架同时支持了TensorFlow、PyTorch、MXNet和Caffe四种主流AI计算框架的性能加速,并且针对以太网和异构加速器本身进行了深入的性能优化。

阿里云异构计算产品家族介绍

下文为您介绍阿里云异构计算产品家族:GPU云服务器、FPGA云服务器、神龙AI加速引擎AIACC、通信优化库AIACC-ACSpeed、计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU、GPU容器共享技术cGPU以及弹性加速计算实例EAIS等异构产品。

一、GPU云服务器

1、什么是GPU云服务器

GPU云服务器是基于GPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,同时实现GPU计算资源的即开即用和弹性伸缩。满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。产品详情参考:https://www.aliyun.com/product/ecs/gpu

2、为什么选择GPU云服务器

阿里云GPU云服务器是基于GPU与CPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势,特别是在浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。GPU的功能特性如下:

  • 拥有大量擅长处理大规模并发计算的算术逻辑单元(Arithmetic and Logic Unit,即ALU)。
  • 能够支持多线程并行的高吞吐量运算。
  • 逻辑控制单元相对简单。
3、GPU云服务器产品优势
  • 高弹性
    提供系列化的规格族,分钟级创建GPU实例,支持水平扩容和垂直变配。

  • 高性能高安全性
    支持GPUDirect,GPU之间点对点通信。GPU可以直接通过NVLink总线互联通信,具备高带宽低时延的特点,无需CPU干预。多租户间弹性GPU安全隔离 ,并通过Hypervisor授权和管理。允许灵活配置多块GPU实现互相高速通信的同时,还具备隔离带来的安全性。

  • 易部署
    和阿里云生态深度融合,您可以轻松搭配其他阿里云产品构建应用,例如搭配OSS、NAS等产品满足存储要求,搭配EMR进行深度学习数据预处理等。支持云原生(阿里云Kubernetes),交付更加便捷。

  • 易监控
    提供全面的GPU监控数据,包括GPU、实例和分组维度,免去您的运维压力。

附:gpu云服务器最新活动价格参考
首次购买gn6i、gn6v和gn7i系列GPU云服务器如下文配置享包月5折,1年2年4折,限1次,限1台,具体配置和价格整理如下:

gpu云服务器实例 配置 活动价格(1个月) 活动价格(2个月) 活动价格(3个月) 活动价格(4个月) 活动价格(5个月) 活动价格(6个月) 活动价格(9个月) 活动价格(1年) 活动价格(2年) 活动价格(3年) 活动价格(4年) 活动价格(5年)
计算型 gn6v 8核32G 3830.00元 7660.00元 11490.00元 15320.00元 19150.00元 22902.00元 34470.00元 36647.40元 68001.60元 79912.80元 106550.40元 133188.00元
计算型 gn6v 32核128G 15247.00元 30520.00元 45780.00元 61040.00元 76300.00元 91482.00元 137340.00元 146508.00元 270998.40元 318571.20元 424761.60元 530952.00元
计算型 gn6v 64核256G 30500.00元 61000.00元 91500.00元 122000.00元 152500.00元 183000.00元 274500.00元 292812.00元 541660.80元 636782.40元 849043.20元 1061304.00元
计算型 gn6v 82核336G 31634.50元 63295.00元 94942.50元 126590.00元 158237.50元 189807.00 元 284827.50元 303828.00元 562040.40元 660742.20元 880989.60元 1101237.00元
计算型 ebmgn6v 96核384G 40995.20元 81990.40元 122985.60元 163980.80元 204976.00元 245971.20元 368956.80元 409956.00元 819840.00元 1352541.60元 1475587.20元 1557657.60元
计算型 gn7i 32核188G 3213.99元 6427.98元 9641.97元 12855.96元 16069.95元 19283.94元 28925.91元 30866.30元 61660.61元 126842.00元 138460.37元 146245.94元
计算型 gn6i 4核15G 1694.00元 3388.00元 5082.00元 6776.00元 8470.00元 10164.00元 15246.00元 16141.80元 32476.80元 38928.96元 51905.28元 64881.60元
计算型 gn6i 8核31G 2023.00元 4072.00元 6108.00元 8144.00元 10180.00元 12138.00元 18324.00元 19425.00元 39043.20元 46808.64元 62411.52元 78014.40元
计算型 gn6i 16核62G 2369.50元 4765.00元 7147.50元 9530.00元 11912.50元 14295.00元 21442.50元 22884.00元 45696.00元 54792.00元 73056.00元 91320.00元
计算型 gn6i 24核93G 2482.00元 4990.00元 7485.00元 9980.00元 12475.00元 14970.00元 22455.00元 23831.40元 47856.00元 57384.00元 76512.00元 95640.00元
计算型 gn6i 48核186G 4970.00元 9940.00元 14910.00元 19880.00元 24850.00元 29820.00元 44730.00元 47724.00元 95376.00元 114408.00元 152544.00元 190680.00元
计算型 gn6i 96核372G 9920.00元 19840.00元 29760.00元 39680.00元 49600.00元 59520.00元 89280.00元 95244.00元 190416.00元 228456.00元 304608.00元 380760.00元
计算型 gn6i 40核155G 3576.45元 7152.90元 10729.35元 14305.80元 17882.26元 21458.71元 32188.06元 34345.94元 68619.87元 82300.64元 109734.19元 137167.74元

更多云服务器实时活动价格参考:https://www.aliyun.com/daily-act/ecs/activity_selection

二、神龙AI加速引擎AIACC

1、什么是神龙AI加速引擎AIACC

神龙AI加速引擎AIACC是基于阿里云IaaS资源推出的AI加速引擎,用于优化基于AI主流计算框架搭建的模型,能显著提升深度学习场景下的训练和推理性能。配合集群极速部署工具FastGPU快速构建AI计算任务,全面提升研发效率和GPU利用率,缩短计算时间并降低AI的推理延迟。

2、神龙AI加速引擎AIACC产品优势
  • 使用AIACC加速深度学习应用具有以下优势:
  • 基于阿里云IaaS资源,资源易用性和稳定性有保障。
  • 配合FastGPU一键构建任务,缩短创建和配置资源的时间并提高GPU资源利用率,大大降低成本。
  • 支持多框架统一加速,显著提升训练和推理性能,而且适配工作量小。AI算法研发时验证周期更短,模型迭代速度更快,从而大大提升研发效率。

三、AI分布式训练通信优化库AIACC-ACSpeed

1、什么是AI分布式训练通信优化库AIACC-ACSpeed

AIACC-ACSpeed(AIACC 2.0-AIACC Communication Speeding)是阿里云推出的AI分布式训练通信优化库AIACC-Training 2.0版本。相比较于分布式训练AIACC-Training 1.5版本,AIACC-ACSpeed基于模块化的解耦优化设计方案,实现了分布式训练在兼容性、适用性和性能加速等方面的升级。其作为阿里云自研的AI训练加速器,具有显著的性能优势,在提高训练效率的同时能够降低使用成本,可以实现无感的分布式通信性能优化。

2、AIACC-ACSpeed介绍

AIACC-ACSpeed(本文简称ACSpeed)作为阿里云自研的AI训练加速器,具有其显著的性能优势,在提高训练效率的同时能够降低使用成本,可以实现无感的分布式通信性能优化。

ACSpeed在AI框架层、集合算法层和网络层上分别实现了与开源主流分布式框架的充分兼容,并实现了软硬件结合的全面优化。ACSpeed的组件架构图如下所示:
AIACC-ACSpeed介绍.png

3、AIACC-ACSpeed优化原理

场景说明
使用单机多卡或多机多卡进行AI分布式训练时,分布式通信的线性度可作为单卡训练扩展到多卡的性能指标,线性度的计算方式如下:

  • 单机内部扩展性:线性度=多卡性能/单卡性能/单机卡数
  • 多机之间扩展性:线性度=多机性能/单机性能/集群数
    线性度的取值范围为0~1,数值越接近于1,其性能指标越好。当线性度不高(例如小于0.8)并且排除了数据IO和CPU的本身因素影响后,可以判断此时分布式通信存在瓶颈。在该场景下使用ACSpeed进行分布式训练,可以加速分布式训练的整体性能,并且原始基线的线性度越差,ACSpeed的提升空间越大。

单机内优化
以PCIe-topo和NVLink-topo机型为例,展示通过ACSpeed优化原理和优化性能效果。具体说明如下:
PCIe-topo机型

  • 问题分析
    以没有P2P互联的8卡机型的GPU拓扑结构为例,GPU0~GPU7的各卡连接如下图所示。由于卡与卡之间没有P2P互联,且多卡共用PCIe带宽,在涉及多卡通信的分布式训练中,特别是通信数据量较大的场景,容易出现因物理带宽限制而造成的通信占比过高的现象。
    单机内优化.png

上图中,GPU0~GPU3或者GPU4~GPU7的各卡之间相互通过PCIe Bridge连接(PIX),而GPU0到GPU4~GPU7、GPU1到GPU4~GPU7、GPU2到GPU4~GPU7、GPU3到GPU4~GPU7之间需要通过socket之间的QPI/UPI接口连接(SYS)。

  • 优化方法
    在原生NCCL通信库中,默认使用ncclAllReduce函数来进行集合通信。在PCIe-topo机型的带宽限制下,性能指标存在待提升的空间。ACSpeed通过降低集合通信过程的相对次数来达到性能提升的目的,实现CPU与GPU之间的异步流水线通信,从而提升通信性能,其主要特点是在CPU上完成数据的AllReduce操作,该优化也称为CPU-Reduce。

  • 优化效果
    在PCIe-topo类型的单机下,遇到因通信占比较高而引起的低线性度加速时,可选择启用CPU-Reduce优化方法。该方法在4 MB及以上通信量上相对于原生NCCL具有20%左右的性能提升,进而将训练过程中的梯度同步时间整体降低,以获取端到端的性能提升。例如,在典型Resnet50和Transformer-based的模型训练场景中,通过该方法可实现10%以上的性能提升。

NVLink-topo机型

  • 问题分析
    以V100 8卡机型的GPU拓扑结构为例,不同的GPU之间连接的nvlink通道数是有区别的(例如NV1或NV2),如下图所示。NCCL经常使用的一种算法是binary-tree(即2-tree),在不同机型拓扑下并不能达到最优。
    NVLink-topo问题分析.png
  • 优化方法
    基于上述问题,ACSpeed充分利用高带宽的nvilnk互联来实现AllReduce算法(例如GPU0与GPU3等),可以在单机通信出现瓶颈时,额外带来性能增益。针对上述V100实例的nvlink组合,ACSpeed实现一套n-trees算法,扩展单机内部不同tree的拓扑结构组合以及分布式多机多卡支持,从而实现拓扑调优。

  • 优化效果
    通过针对性设计的n-trees组合,能够充分利用多个nvlink通道的收发能力,在数据通信量128 MB以上具有20%性能提升。

多机间优化
通过ACSpeed优化,可以实现多机之间通信的性能提升,主要体现在高效的AllReduce算法和多流通信优化方面。

1、高效AllReduce算法

  • 问题分析
    以V100实例为例,单机内部利用nvlink做P2P通信,带宽高达300 GB/s,而多机网络性能在100 Gbps以下,吞吐性能较差,采用传统的ring-allreduce算法因跨机问题性能受限制,从而导致整体性能下降。

  • 优化方法
    相比较传统的ring-allreduce算法,ACSpeed设计的hybrid-allreduce算法实现了单机和多机的分层训练,充分利用单机内部高速带宽同时降低多机之间低速网络的通信量,并且针对阿里云不同机型的网卡和GPU距离的拓扑特点,实现多种不同算法组合(例如ps/tree/butterfly),充分发挥特定机型下的网络结构。

  • 优化效果
    在V100 16 G或者32 G实例的多机上,性能提升明显。例如典型的VGG16两机具有20%以上的性能提升。

2、多流通信优化

  • 问题分析
    通常情况下,单流通信无法打满TCP网络带宽(使用iperf工具可以快速验证这一现象),导致上层allreduce集合通信算法的跨机性能无法达到最优。

  • 优化方法
    ACSpeed设计实现了基于tcp/ip的多流功能,提升分布式训练中并发通信能力,充分利用网络带宽。

  • 优化效果
    使用多流通信优化,对整体多机的性能大幅提升5%到20%不等。

3、多机CPU-Reduce优化

  • 问题分析
    针对PCIe-topo机型,在机器内部通信带宽受限的场景下,相比较原生NCCL,单机内CPU-Reduce的优化效果较明显。因此,基于PCIe-topo机型搭建的多机训练环境下,您可以将单机CPU-Reduce扩展到多机,充分释放单机的性能,同时解决以Socket连接为主的跨机通信的扩展性问题。

  • 优化方法
    多机CPU-Reduce的实现继承了单机CPU-Reduce高效的异步流水线,将跨机通信过程也设计为流水线形态,同时避免存储在CPU侧的中间数据在CPU和GPU之间往返拷贝。为进一步提升跨机通信的性能,可使用闲置资源增加相应跨机流水线的个数。

  • 优化效果
    在通信量较大的VGG16或Transformer-based模型的PCIe-topo多机训练场景下,可将端到端性能进一步提升20%以上。

四、AI训练计算优化编译器AIACC-AGSpeed

1、什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed(AIACC 2.0-AIACC Graph Speeding)是阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器,用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,AIACC-AGSpeed是AIACC 2.0产品的实现,是完全独立的产品形态,可以实现无感的计算优化功能。其作为阿里云自研的AI训练计算优化编译器,对PyTorch深度学习框架训练过程中的计算性能进行深度优化,具有显著的计算性能优势。

2、AIACC-AGSpeed介绍

AIACC-AGSpeed简称为AGSpeed,AGSpeed作为阿里云自研的AI训练计算优化编译器,对PyTorch深度学习框架训练过程中的计算性能进行深度优化,具有其显著的计算性能优势。
AGSpeed的组件架构图如下所示:
AIACC-AGSpeed介绍.png

3、受限场景说明

在AGSpeed编译器前端,如果使用Dynamic Tensor Shape会触发Re-capture、Re-optimize、Re-compile动作,可能会导致AGSpeed的计算优化性能回退,建议您尽可能使用agspeed.optimize()接口优化模型的静态部分。具体原因和建议如下所示:

原因

  • 在AGSpeed编译器前端,如果存在Dynamic Tensor Shape,可能会导致TorchDynamo重新抓取计算图并且重新执行convert frame,对优化性能产生较大影响。
  • 在AGSpeed编译器后端,如果存在Dynamic Tensor Shape,会导致TorchScript重新specialize graph,并重新执行所有的优化Pass。另外,NvFuser后端也有可能会为新的Tensor Shape重新编译新的kernel,这些都会对性能产生较大影响。

建议

  • 使用agspeed.optimize()接口优化模型的静态部分可以有效避免上述限制。例如,针对目标检测模型,仅使用agspeed.optimize()优化深度学习的- backbone,避免封装检测头,因为检测头部分计算的中间变量存在shape多变的现象。

五、集群极速部署工具FastGPU

1、什么是集群极速部署工具FastGPU

FastGPU是一套阿里云推出的人工智能计算极速部署工具。您可以通过其提供的便捷的接口和自动工具,实现分钟级内快速搭建GPU集群,并为深度学习训练创造快捷环境。

2、FastGPU介绍

FastGPU作为衔接您的线下人工智能算法和线上阿里云海量GPU计算资源的关键一环,方便您将人工智能计算任务构建在阿里云的IaaS资源上。使用FastGPU构建人工智能计算任务时,您无需关心IaaS层的计算、存储、网络等资源部署操作,即可达到简单适配、一键部署、随处运行的效果。
FastGPU提供以下两套组件:

  • 运行时组件ncluster:提供便捷的接口将线下的人工智能训练和推理脚本快速部署在阿里云的IaaS资源上。
  • 命令行组件ecluster:提供便捷的命令行工具,用于管理阿里云上人工智能计算任务的运行状态和集群的生命周期。
3、组成模块

FastGPU的组成模块如下图所示。
FastGPU组成模块.png

  • 底层:调用阿里云的OpenAPI所实现的阿里云云上资源的交互层。
  • 中间层:在人工智能任务运行时,对涉及的IaaS层资源所需的对象进行封装后形成的阿里云后端层。
  • 上层:对人工智能任务与相应的阿里云实例资源进行映射,适配后形成的用户控制层。
    您只需调用用户控制层,即可快速构建阿里云上的IaaS级人工智能计算任务。
4、典型流程

使用FastGPU完成AI计算任务的典型流程如下图所示。
典型流程.png

例如,使用FastGPU完成一项训练任务:
在用户起始状态阶段:
将训练数据集上传到对象存储OSS中,并创建一台ECS实例(作为开发主机)存放训练代码。

在FastGPU即刻构建计算任务阶段:
在开发主机上通过FastGPU一键部署集群,创建出任务所需的资源,包括计算资源(CPU、GPU)、存储资源(云盘、NAS文件系统等)、交互式资源(Tmux、Tensorboard)等。
自动启动分布式训练任务,在训练过程中支持通过交互式资源实时查看训练情况。
分布式训练任务完成后自动释放资源。

在用户完成状态阶段:
将训练得到的模型和log文件存放在开发主机的云盘或对象存储OSS上,供您查看任务结果。

六、GPU容器共享技术cGPU

1、什么是GPU容器共享技术cGPU

cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术,助力您在GPU中快速迅捷地部署容器,实现多个容器共享一张GPU卡,使业务安全隔离,提高GPU硬件资源的利用率并降低使用成本。

2、为什么选择cGPU
  • 兼容性好
    不仅适配标准的Docker和Containerd工作方式,而且还无缝兼容Kubernetes工作方式。

  • 操作简单
    无需重编译AI应用,运行时无需替换CUDA库。

  • 资源灵活划分
    物理GPU的资源任意划分。例如,GPU显存动态划分,支持M级划分、GPU利用率动态划分,算力支持最小2%粒度的划分。

  • GPU实例规格无限制
    适用于GPU裸金属实例,虚拟化实例,vGPU实例等各种GPU实例。

  • 应用场景丰富
    支持在离线混部业务(即在线业务和离线业务)、支持CUDA AI和渲染应用场景。

  • 功能强大
    具备高优先级的抢占功能和较高的可运维能力,支持热升级、支持多卡划分功能。

3、cGPU架构图

GPU容器共享技术cGPU的架构图如下所示:
cGPU架构图.png

为了提高GPU硬件资源的利用率,需要在单张显卡上运行多个容器,并在多个容器间隔离GPU应用。

cGPU通过自研的内核驱动为容器提供虚拟的GPU设备,在保证性能的前提下隔离显存和算力,为充分利用GPU硬件资源进行训练和推理提供有效保障。您可以通过命令方便地配置容器内的虚拟GPU设备。

七、弹性加速计算实例EAIS

1、什么是弹性加速计算实例EAIS

EAIS是一款阿里云提供的性能卓越、成本优化、弹性扩展的IaaS(Infrastructure as a Service)级别弹性计算服务。实现了异构计算资源的弹性挂载,即前端可以使用不带异构加速的ECS实例,后端可以动态挂载或卸载GPU实例,让普通的ECS具备异构计算加速的能力,使CPU资源与GPU资源成功解耦。EAIS让CPU与异构加速器的数量配比实现了灵活可配置,从而满足AI推理等场景对于CPU和异构加速器的数量配比的不同需求。同时,后端的GPU实例通过池化管理和调度,可以灵活选择最适合您工作负载的异构加速器,降低异构加速成本。

2、为什么选择EAIS

选择EAIS,您可以轻松构建具有以下优势的异构计算资源:

  • 无需自建机房,无需采购以及配置硬件设施。
  • 分钟级交付,快速部署,缩短应用上线周期。
  • 快速接入部署在全球范围内的数据中心和BGP(Border Gateway Protocol,边界网关协议)机房。
  • 成本透明,按需使用,支持根据业务波动随时扩展和释放资源。
  • 提供任意ECS实例与GPU、NPU、FPGA等异构计算搭配的实例类型,满足您的多种需求。
  • 支持通过内网访问其他阿里云服务,形成丰富的行业解决方案,降低公网流量成本。
  • 提供虚拟防火墙、角色权限控制、内网隔离、防病毒攻击及流量监控等多重安全方案。
  • 提供性能监控框架和主动运维体系。
  • 提供行业通用标准API,提高易用性和适用性。

3、产品架构
EAIS主要包含以下功能组件:

  • 云服务器ECS包含的所有功能组件。更多信息,请参见产品架构。
  • 异构计算资源:一块或1/N块GPU或NPU。

以下为EAIS的产品组件架构图:
EAIS产品组件架构.png

八、FPGA云服务器

1、什么是FPGA云服务器

FPGA云服务器是一类提供了现场可编程门阵列(FPGA)的实例规格。由于FPGA硬件的可重配特性,您可以快速擦写和重配已创建的FPGA硬件加速应用,同时拥有低时延硬件与资源弹性。

2、FaaS平台介绍

传统FPGA开发硬件周期长,开发难度大,硬件加速算法的发布和部署保护要求也非常高。FPGA云服务器平台FaaS(FPGA as a Service)在云端提供统一硬件平台与中间件,可大大降低加速器的开发与部署成本。您无需了解底层硬件即可快速开发和部署自己的定制加速器,也可以直接使用加速器提供商提供的加速服务。

FaaS包括三个组件:

  • 硬件基础设施:FPGA云服务器、硬件加速开发和部署平台(Intel、Xilinx)。
  • 云上配套开发环境:厂商配套软件(Quartus、Vivado)、第三方EDA软件(仿真、模拟)。
  • FPGA IP开发生态:图片转码、基因计算、数据加密、视频压缩、硬件仿真设计、深度学习(预测/训练)等。

阿里云基于FaaS平台推出了FPGA云服务器,在提供FPGA加速能力的同时,保留了与普通ECS实例一致的使用体验。您在创建ECS实例时,选择企业级异构计算规格即可。

3、功能特性
  • 统一性
    兼容多种FPGA器件(Intel、Xilinx),支持Multi-boot的Shell烧写,更可靠,易移植开发。

  • FPGA虚拟化
    自主研发的FPGA软硬件虚拟化方案,实现上云安全隔离要求。支持热升级功能,在不中断业务的前提下,对部分用户逻辑进行在线重配置,以实现新的功能。

  • 联合仿真平台
    支持Intel和Xilinx器件,您无须更改原有设计即可进行软硬件联合仿真,降低输出FPGA高性价比算力的复杂度。

  • 互联拓扑动态可配置
    支持1片、2片、4片FPGA互联拓扑,可动态配置拓扑,实现最高性价比。同卡FPGA之间使用高速互联通道,应用实现两片FPGA之间实时、大批量数据搬运时,不存在带宽瓶颈。

4、工具套件

FaaS平台提供HDK和SDK套件,搭建更加高效、统一的开发及部署平台。
工具套件.png

DK采用Shell+Role的组合方式,保证Shell的最轻量化和稳定性,同时兼顾便捷性和灵活性。
SDK包括两部分:

  • HDK对应的主机端驱动(Drivers)与软件库(Libraries),和HDK的Shell、Role相对应,一起为您提供统一灵活的软件支持。
  • FPGA管理工具faascmd套件,为您提供云上FPGA管理服务,包括BIT/DCP文件安全校验、FPGA镜像生成、下载及管理、FPGA加速卡状态查询反馈等功能。

FaaS的镜像相关操作依赖于阿里云OSS存储,因此使用FPGA云服务器时必须开通OSS服务。

5、产品计费

FPGA云服务器的计费相关功能和云服务器ECS一致,其中,计算资源(vCPU和内存)、镜像、块存储、公网带宽以及快照等资源涉及计费。

常见的计费方式如下所示:

  • 包年包月:按一定时长购买资源,先付费后使用。
  • 按量付费:按需开通和释放资源,先使用后付费。
  • 抢占式实例:通过竞价模式抢占库存充足的计算资源,相对按量付费实例有一定的折扣,但是存在回收机制。
  • 预留实例券:搭配按量付费实例使用的抵扣券,承诺使用指定配置的实例(包括实例规格、地域可用区等),以折扣价抵扣计算资源的账单。
  • 节省计划:搭配按量付费实例使用的折扣权益计划,承诺使用稳定数量的资源(以元/小时为单位衡量),以折扣价抵扣计算资源、系统盘等资源的账单。
  • 存储容量单位包:搭配按量付费存储产品使用的资源包,承诺使用指定容量的存储资源,以折扣价抵扣块存储、NAS、OSS等资源的账单。

另外,除了上文所介绍的这些云服务器之外,阿里云会不定期为用户赠送各种优惠券与代金券,无论我们是购买哪种类型的阿里云服务器,在购买之前推荐先了解一下领券中心是否有优惠券或代金券能领取,如果有的话,可先领券然后再购买,我们结算订单的时还能使用获得满减优惠。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5天前
|
机器学习/深度学习 人工智能 弹性计算
什么是阿里云GPU云服务器?GPU服务器优势、使用和租赁费用整理
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等多种场景。作为亚太领先的云服务提供商,阿里云的GPU云服务器具备灵活的资源配置、高安全性和易用性,支持多种计费模式,帮助企业高效应对计算密集型任务。
|
5天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
|
13天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
1月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
|
1月前
|
Linux 开发工具 Docker
各个类linux服务器安装docker教程
各个类linux服务器安装docker教程
55 0
|
3月前
|
编解码 分布式计算 Linux
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
阿里云服务器产品包含云服务器、轻量应用服务器、GPU云服务器等,本文汇总了这些云服务器当下最新的实时活动价格情况,包含经济型e实例云服务器价格、通用算力型u1实例云服务器价格、第七代云服务器价格、轻量应用服务器最新价格、GPU云服务器价格,以供大家参考。
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
|
3月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
241 1
|
8天前
|
算法 数据安全/隐私保护 异构计算
基于FPGA的1024QAM基带通信系统,包含testbench,高斯信道模块,误码率统计模块,可以设置不同SNR
本文介绍了基于FPGA的1024QAM调制解调系统的仿真与实现。通过Vivado 2019.2进行仿真,分别在SNR=40dB和35dB下验证了算法效果,并将数据导入Matlab生成星座图。1024QAM调制将10比特映射到复数平面上的1024个星座点之一,适用于高数据传输速率的应用。系统包含数据接口、串并转换、星座映射、调制器、解调器等模块。Verilog核心程序实现了调制、加噪声信道和解调过程,并统计误码率。
26 1
|
29天前
|
算法 数据安全/隐私保护 异构计算
基于FPGA的64QAM基带通信系统,包含testbench,高斯信道模块,误码率统计模块,可以设置不同SNR
本文介绍了基于FPGA的64QAM调制解调通信系统的设计与实现,包括信号生成、调制、解调和误码率测试。系统在Vivado 2019.2中进行了仿真,通过设置不同SNR值(15、20、25)验证了系统的性能,并展示了相应的星座图。核心程序使用Verilog语言编写,加入了信道噪声模块和误码率统计功能,提升了仿真效率。
44 4
|
29天前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。

相关产品

  • 云服务器 ECS
  • GPU云服务器
  • FPGA云服务器