麻烦请教一下机器学习PAI,eas在线服务中资源配置 每个实例上gpu可以设置为0.5吗?因为我当前这个资源组上是两台1个gpu的GU30机器 谢谢
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在阿里云机器学习平台PAI的EAS(模型在线服务)中,资源配置支持通过GPU共享功能实现单卡多实例部署。针对您的问题,以下是详细解答:
是的,您可以通过GPU共享功能实现每个实例使用部分GPU资源的需求。具体来说,您可以配置以下两个关键参数来实现这一目标: - 单卡使用显存(GB):指定每个实例所需的单个GPU显存数量,单位为GB。 - 单卡算力占比(%):指定每个实例所需的单个GPU算力比例,取值范围为1~100之间的整数。
例如,如果您希望每个实例使用0.5张GPU卡的资源,可以按照以下方式配置: - 单卡使用显存:假设每张GU30 GPU的显存为24GB,则可以设置为12 GB
(即24GB的50%)。 - 单卡算力占比:设置为50
(即50%的GPU算力)。
这两个参数是“且”的关系,意味着实例会同时受到显存和算力的限制。
在使用GPU共享功能时,需要注意以下前提条件和限制: - 白名单申请:当前GPU共享功能仅供白名单用户使用。如果您尚未开通此功能,请先提交工单申请添加到白名单。 - 专属资源组:GPU共享功能仅支持EAS专属资源组,不支持公共资源组。 - 机型限制:GPU共享功能不支持GU系列的机型(如GU30)。因此,如果您的资源组使用的是GU30机型,则无法直接使用GPU共享功能。
由于您的资源组使用的是两台GU30机器,而GPU共享功能不支持GU系列机型,因此无法直接通过GPU共享功能实现每个实例使用0.5张GPU卡的需求。以下是两种可能的解决方案:
建议您考虑更换为支持GPU共享功能的非GU系列机型(如ecs.gn6i或ecs.gn7系列)。这些机型支持通过GPU共享功能实现单卡多实例部署。
如果无法更换机型,您可以通过手动分配资源的方式实现类似效果。例如: - 部署两个服务实例,分别绑定到不同的GPU卡上。 - 在代码层面控制每个实例的显存和算力使用量,确保它们不会超出单张GPU卡的50%资源。
以下是一个通过控制台配置GPU共享功能的示例(适用于支持的机型): 1. 登录PAI控制台,进入EAS页面。 2. 单击部署服务,选择自定义部署。 3. 在资源部署区域,配置以下参数: - 资源类型:选择EAS资源组。 - GPU共享:选中GPU共享复选框。 - 部署资源: - 单卡使用显存(GB):输入12
。 - 单卡算力占比(%):输入50
。 4. 完成其他参数配置后,单击部署。
希望以上信息能够帮助您解决问题!如果有进一步的问题,欢迎随时咨询。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。