开发者社区 问答 正文

将以下层分别放在不同的卡上进行训练,并行化后的计算图是怎样的?

将Bert Large中的Encoder Layer 1~8层、Encoder Layer 9~16层,Encoder Layer 17~24层分别放在不同的卡上进行训练,并行化后的计算图是怎样的?

展开
收起
岩茶芋泥 2022-04-20 11:08:17 1783 分享 版权
来自: 阿里技术
1 条回答
写回答
取消 提交回答
  • image.png

    2022-04-20 13:26:44
    赞同 展开评论
问答地址: