开发者社区> 问答> 正文

该怎么联合训练 bert textcnn 蒸馏?

该怎么联合训练 bert textcnn 蒸馏?

展开
收起
Dons 2021-12-03 21:58:36 533 0
1 条回答
写回答
取消 提交回答
  • 有2个方案。

    (1)参数隔离:teacher model 训练一次,并把logit传给student。teacher 的参数更新至受到label的影响,student 参数更新受到teacher loigt的soft label loss 和label 的 hard label loss 的影响。

    image.jpeg

    (2)参数不隔离: 与方案(1)类似,主要区别在于前一次迭代的student 的 soft label 的梯度会用于teacher参数的更新。

    image.jpeg

    2021-12-03 22:01:24
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
+ 订阅
关于阿里的机器智能创新技术均呈现于此.
问答排行榜
最热
最新

相关电子书

更多
ImageNet:VGGNet,ResNet,Incepti 立即下载
展心展力MetaApp:基于DeepRec的稀疏模型训练实践 立即下载
纯干货 | 机器学习中梯度下降法的分类及对比分析 立即下载