开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

DAG 2.0 的资源动态配置能力,怎样帮助平台的TF作业选择合理的 GPU 类型资源以及提高 GP

已解决

DAG 2.0 的资源动态配置能力,怎样帮助平台的TF作业选择合理的 GPU 类型资源以及提高 GPU 资源的利用率?

展开
收起
游客lmkkns5ck6auu 2022-08-10 11:19:22 446 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    在 DAG2.0 的框架上,PAI TF GPU 作业(见 session 2.2.2 的 dynamic PS DAG) 引入了一个额外的“计算控制节点”,可以通过运行 PAI 平台的资源预测算法,来判断当前作业实际需要的 GPU 资源类型,并在必要的时候,通过向 AM GPU 类型。这其中资源预测算法,可以根据算法的类型,数据的特点,以及历史作业信息来做 HBO (history based optimization),也可以通过 dry-run 的方法来进行试运行,以此确定合理的资源类型。

    具体实现上,这个场景中 control stage 与 worker 之间通过 concurrent edge 连接,这条边上的调度触发条件是在 control stage 已经做出资源选择决定之后,通过其发出的事件来触发。这样的作业运行期间的动态资源配置,在线上功能测试中,带来了 40% 以上的集群 GPU 利用率提升。作为物理特性一个重要的维度,对计算节点的资源特性在运行时的动态调整能力,在 PAI 以及 MaxCompute 上都能找到广泛的应用。以 MaxCompute SQL 为例,对于下游节点的 CPU/Memory 的大小,可以根据上游数据的特点进行有效的预判;同时对于系统中发生的 OOM,可以尝试自动调高 OOM 后重试的计算节点的内存申请,避免作业的失败等等。

    以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873

    2022-08-10 18:21:53
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
DeepStream: GPU加速海量视频数据智能处理 立即下载
阿里巴巴高性能GPU架构与应用 立即下载
GPU在超大规模深度学习中的发展和应用 立即下载