开发者社区 问答 正文

该怎么联合训练 bert textcnn 蒸馏?

该怎么联合训练 bert textcnn 蒸馏?

展开
收起
Dons 2021-12-03 21:58:36 546 分享
分享
版权
来自: 阿里机器智能 举报
1 条回答
写回答
取消 提交回答
  • 有2个方案。

    (1)参数隔离:teacher model 训练一次,并把logit传给student。teacher 的参数更新至受到label的影响,student 参数更新受到teacher loigt的soft label loss 和label 的 hard label loss 的影响。

    image.jpeg

    (2)参数不隔离: 与方案(1)类似,主要区别在于前一次迭代的student 的 soft label 的梯度会用于teacher参数的更新。

    image.jpeg

    2021-12-03 22:01:24 举报
    赞同 评论

    评论

    全部评论 (0)

    登录后可评论