FPGA资源平民化 - 阿里云FaaS F2使用指南

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储OSS,敏感数据保护2.0 200GB 1年
函数计算FC,每月15万CU 3个月
简介: 前言 阿里云虚拟化团队异构计算和高性能计算团队一直致力于将计算资源"平民化";平民化这个词我第一次是从高性能计算团队何万青老师那边听到的,他们在做的E-HPC就是要让所有云上用户都能够瞬间拥有一个小型的超算集群,使得使用超算不再仅仅是一些超算中心和高校的特权;我们异构计算团队则致力于将目前最快,最.

前言

阿里云虚拟化团队异构计算和高性能计算团队一直致力于将计算资源"平民化";平民化这个词我第一次是从高性能计算团队何万青老师那边听到的,他们在做的E-HPC就是要让所有云上用户都能够瞬间拥有一个小型的超算集群,使得使用超算不再仅仅是一些超算中心和高校的特权;我们异构计算团队则致力于将目前最快,最新的计算设备在云上提供给用户,之前的产品为GPU云服务器EGS;大概半年前我们正式推出了FPGA云服务器FaaS;经过内测,公测,现在终于正式上线,用户只需要开通白名单就可以和使用ECS虚拟机一样使用FPGA资源了!

FaaS介绍

FaaS,全名FPGA as a Service,是一种在云上使用FPGA的方式;我们现在支持两种不同的实例,分别为:

实例型号 FPGA型号
F1 intel A10
F2 Xilinx ku115

F2从入门到放弃

准备

新建子帐号(可选)

建议用户新建一个子帐号,并使用子帐号来操作阿里云资源,通过授权子帐号必要的权限,来保证安全!

  1. 登陆阿里云RAM控制台

1.png | center | 1426x733

  1. 在左侧边栏位置选择[用户管理] -> [新建用户]

2.png

  1. 在弹出的创建用户的表单中填写:用户名,显示名,邮箱,电话等信息,选中为该用户自动生成AccessKey,点击确定

3.png

  1. 在弹出的窗口中保存用户的AK/AS,这里请一定要记住AK/AS,后续操作都会需要用到这个信息!

4.png

  1. 至此,RAM子帐号已经创建好,接下来需要给该子帐号授权!
  2. 在RAM控制台里,选中左侧的[用户管理]标签,可以看到刚刚新建的RAM子帐号,点击[授权]按钮,进行子帐号授权

5.png

  1. 至少给该子帐号授予如下权限:AliyunOSSFullAccess, AliyunECSFullAccess, AliyunRAMFullAccess & AliyunSTSAssumeRoleAccess;选中后点击确定即可

6.png

开通OSS,并创建一个专用的bucket

FaaS的镜像相关操作依赖于阿里云OSS存储,因此用户必须开通OSS服务;同时我们建议用户新建一个专有的bucket,用来存储您自己的FPGA镜像中间结果

开通OSS(如果已经开通请忽略这一步)
  1. 登陆OSS售卖页面,点击立即开通

    1.png

在华东1区新建一个bucket

建议用户新建一个bucket,专门用于FaaS服务,因此这个bucket会对aliyun官方管理帐号开通读写权限,因此不建议用户存储和FaaS不相关内容;请记住这个bucket名字,在后续操作中会经常用到

  1. 登陆OSS管理控制台
  2. 点击左上方的"+"号,新建一个bucket

    2.png

  3. 在右侧弹出的对话框中给这个bucket起一个名字,选择区域为华东1,点击确定

    3.png

  4. 可以在左侧看到刚刚创建的bucket

    4.png

购买

To 预算比较紧张,购买按量付费的用户: 考虑到F2实例价格比普通ECS价格高一些,因此建议用户在调试,编译阶段采用普通ECS;建议使用阿里云计算型实例,4核以上;在完成调试和编译后,真正需要下载到FPGA里运行时,再购买F2实例;

  1. 目前购买F2实例仍然需要开白名单,请用户提工单(或者联系阿里云BD)提供自己的阿里云帐号
  2. 开通白名单后,在阿里云官网购买页面直接购买,请选择华东1,可用区B,VPC网络;F2目前支持按量付费包年包月两种售卖方式;实例规格请选择异构计算FPGA计算型

1.png
2.png

  1. Xilinx的开发环境,我们准备了一个镜像,用户直接使用该镜像创建实例即可;该镜像后期会在镜像市场免费提供给用户,目前还只能通过共享镜像的方式提供,因此用户在选择镜像时,请选择共享镜像;如果在共享镜像里看不到镜像,需要提工单(或者联系阿里云BD)
    1.png

F2 实例OpenCL开发最佳实践

这里我们以使用普通计算型实例做编译和仿真,以F2实例作为最终运行为例;当然,编译和仿真也完全可以在F2实例上完成,这样更简单

编译,仿真

对于按量用户,建议使用更加便宜的普通ECS实例(建议使用计算型4核以上实例)进行编译和仿真,因为这时候不需要真正使用到FPGA;购买普通ECS实例和购买F2实例类似,只是在选择实例规格时,选择型号不同,但是依然要使用我们共享的镜像

  1. 首先配置SDx环境

    source /opt/Xilinx/SDx/2017.2/settings64.sh 
  2. 运行SDx自带demo:

    cd /opt/Xilinx/SDx/2017.2/examples/vadd

查看在当前目录下sdaccel.mk里面的platform(第60行)是否为

XDEVICE=xilinx_kcu1500_4ddr-xpr_4_0

改common.mk文件

vim ../common/common.mk

把第61行

CLCC_OPT += $(CLCC_OPT_LEVEL) ${DEVICE_REPO_OPT} --platform ${XDEVICE} -o ${XCLBIN} ${KERNEL_DEFS} ${KERNEL_INCS}

改成

CLCC_OPT += $(CLCC_OPT_LEVEL) ${DEVICE_REPO_OPT} --platform ${XDEVICE} -o ${XCLBIN} ${KERNEL_DEFS} ${KERNEL_INCS} --xp param:compiler.acceleratorBinaryContent=dcp

软件仿真

 make -f sdaccel.mk run_cpu_em
看结果是否PASSED
![1.png](http://ata2-img.cn-hangzhou.img-pub.aliyun-inc.com/bcc1b065a6eb856d46701c1a4d7ddf3f.png)

直接运行
export  XCL_EMULATION_MODE=true    #一定要设置这个环境变量,不然会报错,找不到设备
./vadd bin_vadd_cpu_emu.xclbin
#如果报如下错:Error: Unable to find Target Device xilinx_kcu1500_4ddr-xpr_4_0;请检查XCL_EMULATION_MODE是否为true,如果没有,请设置:export  XCL_EMULATION_MODE=true

硬件仿真

 make -f sdaccel.mk cleanall
 make -f sdaccel.mk run_hw_em

看仿真结果是否PASSED

![2.png](http://ata2-img.cn-hangzhou.img-pub.aliyun-inc.com/958a3911637ac617e6145749a1dd64bf.png)

直接运行
export  XCL_EMULATION_MODE=true    #一定要设置这个环境变量,不然会报错,找不到设备
./vadd bin_vadd_cpu_emu.xclbin
#如果报如下错:Error: Unable to find Target Device xilinx_kcu1500_4ddr-xpr_4_0;请检查XCL_EMULATION_MODE是否为true,如果没有,请设置:export  XCL_EMULATION_MODE=true

编译

 make -f sdaccel.mk cleanall
 make -f sdaccel.mk xbin_hw
//其他一些操作
/*
make -f sdaccel.mk xbin_hw  #生成最终的二进制文件,时间比较长,差不多4个小时才能完成
make -f ./sdaccel.mk help  #查看帮助文档
#Compile and run CPU emulation using default xilinx:adm-pcie-7v3:1ddr:3.0 DSA
make -f sdaccel.mk run_cpu_em   //即:软件仿真
#Compile and run hardware emulation using default xilinx:adm-pcie-7v3:1ddr:3.0 DSA
make -f sdaccel.mk run_hw_em  //硬件仿真
#Compile host executable only
make -f sdaccel.mk host   //只编译host代码
#Compile XCLBIN file for system run only
make -f sdaccel.mk xbin_hw   //这个最重要,编译生成可以下载到FPGA内的二进制文件
#Clean working diretory
#make -f sdaccel.mk clean
#Super clean working directory
#make -f sdaccel.mk cleanall
*/

ps:此处编译的时间会比较久,建议通过screen或者nohub等方式,防止ssh timeout退出。

  1. 配置安全烧写环境

    source /root/xbinst_oem/F2_env_setup.sh
    faascmd config --id=<accessID> --key=<accessKey>  #id/key为阿里云accessID/accessKey,上述新建子帐号曾经保存过
    
    faascmd auth --bucket=<bucket_name>  #新建的OSS bucket 名字
  2. 编译成功后打包结果

     #如果/root/xbinst_oem/目录里没有sdaccel_package.sh,先下载:wget http://fpga-tools.oss-cn-shanghai.aliyuncs.com/sdaccel_package.sh
    /root/xbinst_oem/sdaccel_package.sh -xclbin=/opt/Xilinx/SDx/2017.2/examples/vadd/bin_vadd_cpu_emu.xclbin 

3.png

  1. 上传压缩包到自己的OSS指定的bucket

    faascmd upload_object --object=<在bucket中名字,建议和file一致> --file=<打包生成的结果,一个tar包>
  2. 新建一个可以在F2上运行的FPGA image

    faascmd create_image --object=<在bucket中名字,建议和file一致> --fpgatype=xilinx --name=hereIsFPGAImageName --tags=hereIsFPGAImageTag --encrypted=false --shell=V1.0
  3. 查看fpga image是否已经可以下载

    faascmd list_images

    214c7c10-695e-42a5-a1bc-968bc38023e1.png | center

我们看到状态已经是success,可以下载了。记下FPGAIamgeUUID,一会下载的时候需要用

下载

如何编译和仿真是在另外一台ECS上完成的,这里首先要购买一台F2实例;具体的购买过程参考购买章节

  1. 首先配置安全烧写环境(如果之前已经设置过,跳过)

    source /root/xbinst_oem/F2_env_setup.sh
    
    faascmd config --id=<accessID> --key=<accessKey>  #id/key为阿里云accessID/accessKey,上述新建子帐号曾经保存过
    
    faascmd auth --bucket=<bucket_name>  #新建的OSS bucket 名字
  2. 获取fpgauuid

    faascmd list_instances --instanceId=hereIsYourInstanceId

    vm instance Id:可以在阿里云控制台找到

00a2716a-0157-4170-b101-ef1356a70536.png | center

  1. 下载fpga image

    faascmd download_image  --instanceId=hereIsYourInstanceId --fpgauuid=hereIsFpgaUUID --fpgatype=xilinx --imageuuid=hereIsImageUUID --imagetype=afu --shell=V1.0
  2. 查看是否下载成功

    faascmd fpga_status --fpgauuid=hereIsFpgaUUID --instanceId=hereIsYourInstanceId

    a37dfcaf-7079-44b3-a512-c7135e6c8415.png | center

板卡上的FpgaImageUUID已经跟需要下载的image一致,并且TaskStatus已经valid,说明下载已经成功。

5.跑host程序

make -f sdaccel.mk host
unset XILINX_SDX
./vadd bin_vadd_hw.xclbin

3f52b65a-b730-4af3-8aa4-9840395a9b5f.png | center

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
目录
相关文章
|
3月前
|
分布式计算 运维 搜索推荐
立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务
蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。
198 57
|
2月前
|
人工智能 运维 安全
阿里云 Serverless 助力海牙湾构建弹性、高效、智能的 AI 数字化平台
海牙湾(G-Town)是一家以“供应链+场景+技术+AI”为核心驱动力的科技公司,致力于为各行业提供数字化转型解决方案。通过采用阿里云Serverless架构,解决了弹性能力不足、资源浪费与运维低效的问题。SAE全托管特性降低了技术复杂度,并计划进一步探索Serverless与AI结合,推动智能数字化发展。海牙湾业务覆盖金融、美妆、能源等领域,与多家知名企业建立战略合作,持续优化用户体验和供应链决策能力,保障信息安全并创造可量化的商业价值。未来,公司将深化云原生技术应用,助力更多行业实现高效数字化转型。
229 20
|
2月前
|
人工智能 弹性计算 运维
阿里云邀请您参加 2025 中国 Serverless 用户调查
阿里云邀请您参加 2025 中国 Serverless 用户调查
|
3月前
|
Cloud Native Serverless 流计算
云原生时代的应用架构演进:从微服务到 Serverless 的阿里云实践
云原生技术正重塑企业数字化转型路径。阿里云作为亚太领先云服务商,提供完整云原生产品矩阵:容器服务ACK优化启动速度与镜像分发效率;MSE微服务引擎保障高可用性;ASM服务网格降低资源消耗;函数计算FC突破冷启动瓶颈;SAE重新定义PaaS边界;PolarDB数据库实现存储计算分离;DataWorks简化数据湖构建;Flink实时计算助力风控系统。这些技术已在多行业落地,推动效率提升与商业模式创新,助力企业在数字化浪潮中占据先机。
232 12
|
5月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
452 58
|
5月前
|
Kubernetes 监控 Serverless
基于阿里云Serverless Kubernetes(ASK)的无服务器架构设计与实践
无服务器架构(Serverless Architecture)在云原生技术中备受关注,开发者只需专注于业务逻辑,无需管理服务器。阿里云Serverless Kubernetes(ASK)是基于Kubernetes的托管服务,提供极致弹性和按需付费能力。本文深入探讨如何使用ASK设计和实现无服务器架构,涵盖事件驱动、自动扩展、无状态设计、监控与日志及成本优化等方面,并通过图片处理服务案例展示具体实践,帮助构建高效可靠的无服务器应用。
|
5月前
|
Cloud Native 安全 Serverless
云原生应用实战:基于阿里云Serverless的API服务开发与部署
随着云计算的发展,Serverless架构日益流行。阿里云函数计算(Function Compute)作为Serverless服务,让开发者无需管理服务器即可运行代码,按需付费,简化开发运维流程。本文从零开始,介绍如何使用阿里云函数计算开发简单的API服务,并探讨其核心优势与最佳实践。通过Python示例,演示创建、部署及优化API的过程,涵盖环境准备、代码实现、性能优化和安全管理等内容,帮助读者快速上手Serverless开发。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
企业级API集成方案:基于阿里云函数计算调用DeepSeek全解析
DeepSeek R1 是一款先进的大规模深度学习模型,专为自然语言处理等复杂任务设计。它具备高效的架构、强大的泛化能力和优化的参数管理,适用于文本生成、智能问答、代码生成和数据分析等领域。阿里云平台提供了高性能计算资源、合规与数据安全、低延迟覆盖和成本效益等优势,支持用户便捷部署和调用 DeepSeek R1 模型,确保快速响应和稳定服务。通过阿里云百炼模型服务,用户可以轻松体验满血版 DeepSeek R1,并享受免费试用和灵活的API调用方式。
368 12
|
5月前
|
SQL 存储 OLAP
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
105 0
|
5月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

热门文章

最新文章