问题1:请教一下机器学习PAI,我想把FastNN库里的bert改成算子拆分并行,有相关文档吗,我在模型定义前加上了split的上下文,但是没有效果怎么办?
问题2:我尝试跨节点跑张量切分的策略,发现节点之间不会互相传输算子互相放置,是因为epl目前还不支持吗?
问题1:关于将 FastNN 库中的 BERT 模型改为算子拆分并行的相关文档,目前我无法提供具体的机器学习 PAI 的文档链接。然而,你可以参考 TensorFlow 官方文档中有关自定义算子和模型并行化的章节。
如果你已经在模型定义前添加了拆分操作(split)的上下文,但没有看到预期的效果,可能有以下几个原因:
错误的上下文位置:确保你的拆分操作放置在正确的位置,以便算子能够正确拆分和并行执行。通常,在模型定义的输入部分,并在需要并行处理的层之前进行拆分操作会比较有效。
拆分参数设置:检查你对拆分操作的参数设置是否正确。确保你正确指定了拆分的维度和块数,以适应你的计算设备和数据分布方式。
分布式训练支持:如果你尝试在分布式环境中进行拆分操作并行化,确保你使用的机器学习 PAI 平台支持分布式训练和跨节点通信。这样才能实现节点之间的算子放置和传输。
问题2:关于跨节点的张量切分策略,如果你发现节点之间没有互相传输算子或互相放置,可能是因为当前的机器学习 PAI 平台还不支持此功能。分布式训练和节点间通信需要特定的配置和支持,包括网络连接、通信库和分布式计算框架。确保你在使用机器学习 PAI 平台时了解其分布式训练功能和支持的范围。
回答1:目前开源版本仅支持大规模分类场景。如果有Transformer等自动拆分场景需求,可以在github上给我们提issue或者需求
回答2:目前EPL不支持Transformer类模型的张量切分。暂时只支持大规模分类模型的算子拆分,即example中以resnet50为backbone的分类任务,此回答整理自钉群“EPL用户交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。