开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

请教一下机器学习PAI,我想把FastNN库里的bert改成算子拆分并行,有相关文档吗,我在模型定?

问题1:请教一下机器学习PAI,我想把FastNN库里的bert改成算子拆分并行,有相关文档吗,我在模型定义前加上了split的上下文,但是没有效果怎么办?
问题2:我尝试跨节点跑张量切分的策略,发现节点之间不会互相传输算子互相放置,是因为epl目前还不支持吗?

展开
收起
真的很搞笑 2023-07-22 12:41:00 70 0
2 条回答
写回答
取消 提交回答
  • 问题1:关于将 FastNN 库中的 BERT 模型改为算子拆分并行的相关文档,目前我无法提供具体的机器学习 PAI 的文档链接。然而,你可以参考 TensorFlow 官方文档中有关自定义算子和模型并行化的章节。

    如果你已经在模型定义前添加了拆分操作(split)的上下文,但没有看到预期的效果,可能有以下几个原因:

    • 错误的上下文位置:确保你的拆分操作放置在正确的位置,以便算子能够正确拆分和并行执行。通常,在模型定义的输入部分,并在需要并行处理的层之前进行拆分操作会比较有效。

    • 拆分参数设置:检查你对拆分操作的参数设置是否正确。确保你正确指定了拆分的维度和块数,以适应你的计算设备和数据分布方式。

    • 分布式训练支持:如果你尝试在分布式环境中进行拆分操作并行化,确保你使用的机器学习 PAI 平台支持分布式训练和跨节点通信。这样才能实现节点之间的算子放置和传输。

    问题2:关于跨节点的张量切分策略,如果你发现节点之间没有互相传输算子或互相放置,可能是因为当前的机器学习 PAI 平台还不支持此功能。分布式训练和节点间通信需要特定的配置和支持,包括网络连接、通信库和分布式计算框架。确保你在使用机器学习 PAI 平台时了解其分布式训练功能和支持的范围。

    2023-07-31 17:14:41
    赞同 展开评论 打赏
  • 回答1:目前开源版本仅支持大规模分类场景。如果有Transformer等自动拆分场景需求,可以在github上给我们提issue或者需求
    回答2:目前EPL不支持Transformer类模型的张量切分。暂时只支持大规模分类模型的算子拆分,即example中以resnet50为backbone的分类任务,此回答整理自钉群“EPL用户交流群”

    2023-07-22 13:04:38
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    微博机器学习平台架构和实践 立即下载