DAG 2.0 的资源动态配置能力,怎样帮助平台的TF作业选择合理的 GPU 类型资源以及提高 GPU 资源的利用率?
在 DAG2.0 的框架上,PAI TF GPU 作业(见 session 2.2.2 的 dynamic PS DAG) 引入了一个额外的“计算控制节点”,可以通过运行 PAI 平台的资源预测算法,来判断当前作业实际需要的 GPU 资源类型,并在必要的时候,通过向 AM GPU 类型。这其中资源预测算法,可以根据算法的类型,数据的特点,以及历史作业信息来做 HBO (history based optimization),也可以通过 dry-run 的方法来进行试运行,以此确定合理的资源类型。
具体实现上,这个场景中 control stage 与 worker 之间通过 concurrent edge 连接,这条边上的调度触发条件是在 control stage 已经做出资源选择决定之后,通过其发出的事件来触发。这样的作业运行期间的动态资源配置,在线上功能测试中,带来了 40% 以上的集群 GPU 利用率提升。作为物理特性一个重要的维度,对计算节点的资源特性在运行时的动态调整能力,在 PAI 以及 MaxCompute 上都能找到广泛的应用。以 MaxCompute SQL 为例,对于下游节点的 CPU/Memory 的大小,可以根据上游数据的特点进行有效的预判;同时对于系统中发生的 OOM,可以尝试自动调高 OOM 后重试的计算节点的内存申请,避免作业的失败等等。
以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。