ELECTRA 的预训练速度是加快了,但从目前的实验来看,它相比同级别的 BERT 在下游任务上的效果并没有突出优势,可以试用,但是效果变差了也不用太失望。此外,如果你需要用到 MLM 部分的权重,那么也不能用 ELECTRA,因为 ELECTRA 的主体是判别器,它不是 MLM 模型;而 ELECTRA 中作为生成器的 MLM 模型,则比判别器简化,可能存在拟合能力不足、学习不充分等问题,并不是一个很好的预训练 MLM 模型。
至于 ELECTRA 背后的思想,即针对 MLM 随机 Mask 这一步过于简单进行改进,目前看来方向是没有错误的,但是将生成式模型换成判别式模型的有效性依然还需要进一步验证,如果有兴趣深入分析的读者,倒是可以进一步思考研究。
Transformer 101 个思考问题:
https://gitee.com/oatmeal3000/Transformer101Q