麻烦请教一下机器学习PAI,eas在线服务中资源配置 每个实例上gpu可以设置为0.5吗?

麻烦请教一下机器学习PAI,eas在线服务中资源配置 每个实例上gpu可以设置为0.5吗?因为我当前这个资源组上是两台1个gpu的GU30机器 谢谢0bf8085c8796b53aaeaaeb8690ffce01.png

展开
收起
真的很搞笑 2023-09-13 15:57:55 115 分享 版权
阿里云 AI 助理回答

在阿里云机器学习平台PAI的EAS(模型在线服务)中,资源配置支持通过GPU共享功能实现单卡多实例部署。针对您的问题,以下是详细解答:

1. 是否可以将每个实例的GPU设置为0.5?

是的,您可以通过GPU共享功能实现每个实例使用部分GPU资源的需求。具体来说,您可以配置以下两个关键参数来实现这一目标: - 单卡使用显存(GB):指定每个实例所需的单个GPU显存数量,单位为GB。 - 单卡算力占比(%):指定每个实例所需的单个GPU算力比例,取值范围为1~100之间的整数。

例如,如果您希望每个实例使用0.5张GPU卡的资源,可以按照以下方式配置: - 单卡使用显存:假设每张GU30 GPU的显存为24GB,则可以设置为12 GB(即24GB的50%)。 - 单卡算力占比:设置为50(即50%的GPU算力)。

这两个参数是“且”的关系,意味着实例会同时受到显存和算力的限制。

2. 前提条件与限制

在使用GPU共享功能时,需要注意以下前提条件和限制: - 白名单申请:当前GPU共享功能仅供白名单用户使用。如果您尚未开通此功能,请先提交工单申请添加到白名单。 - 专属资源组:GPU共享功能仅支持EAS专属资源组,不支持公共资源组。 - 机型限制:GPU共享功能不支持GU系列的机型(如GU30)。因此,如果您的资源组使用的是GU30机型,则无法直接使用GPU共享功能。

3. 解决方案建议

由于您的资源组使用的是两台GU30机器,而GPU共享功能不支持GU系列机型,因此无法直接通过GPU共享功能实现每个实例使用0.5张GPU卡的需求。以下是两种可能的解决方案:

方案一:更换机型

建议您考虑更换为支持GPU共享功能的非GU系列机型(如ecs.gn6i或ecs.gn7系列)。这些机型支持通过GPU共享功能实现单卡多实例部署。

方案二:手动分配资源

如果无法更换机型,您可以通过手动分配资源的方式实现类似效果。例如: - 部署两个服务实例,分别绑定到不同的GPU卡上。 - 在代码层面控制每个实例的显存和算力使用量,确保它们不会超出单张GPU卡的50%资源。

4. 配置示例

以下是一个通过控制台配置GPU共享功能的示例(适用于支持的机型): 1. 登录PAI控制台,进入EAS页面。 2. 单击部署服务,选择自定义部署。 3. 在资源部署区域,配置以下参数: - 资源类型:选择EAS资源组。 - GPU共享:选中GPU共享复选框。 - 部署资源: - 单卡使用显存(GB):输入12。 - 单卡算力占比(%):输入50。 4. 完成其他参数配置后,单击部署

5. 重要提醒

  • 显存隔离未严格开启:当前系统未开启显存的严格隔离,您需要自行控制各实例的显存使用量,避免超出申请量导致显存溢出。
  • 资源组选择:确保资源组中的机型支持GPU共享功能,否则无法启用相关配置。

希望以上信息能够帮助您解决问题!如果有进一步的问题,欢迎随时咨询。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

还有其他疑问?
咨询AI助理