开发者社区> 问答> 正文

将以下层分别放在不同的卡上进行训练,并行化后的计算图是怎样的?

将Bert Large中的Encoder Layer 1~8层、Encoder Layer 9~16层,Encoder Layer 17~24层分别放在不同的卡上进行训练,并行化后的计算图是怎样的?

展开
收起
岩茶芋泥 2022-04-20 11:08:17 1760 0
来自:阿里技术
1 条回答
写回答
取消 提交回答
  • image.png

    2022-04-20 13:26:44
    赞同 展开评论 打赏
问答地址:
来源圈子
更多
收录在圈子:
+ 订阅
问答排行榜
最热
最新

相关电子书

更多
为并行图数据处理提供高层抽象/语言 立即下载
图计算优化技术探索 立即下载
千亿特征流式学习 在大规模推荐排序场景的应用 立即下载