ELECTRA 怎么样

简介: ELECTRA 怎么样

ELECTRA 的预训练速度是加快了,但从目前的实验来看,它相比同级别的 BERT 在下游任务上的效果并没有突出优势,可以试用,但是效果变差了也不用太失望。此外,如果你需要用到 MLM 部分的权重,那么也不能用 ELECTRA,因为 ELECTRA 的主体是判别器,它不是 MLM 模型;而 ELECTRA 中作为生成器的 MLM 模型,则比判别器简化,可能存在拟合能力不足、学习不充分等问题,并不是一个很好的预训练 MLM 模型。


至于 ELECTRA 背后的思想,即针对 MLM 随机 Mask 这一步过于简单进行改进,目前看来方向是没有错误的,但是将生成式模型换成判别式模型的有效性依然还需要进一步验证,如果有兴趣深入分析的读者,倒是可以进一步思考研究。


Transformer 101 个思考问题:


https://gitee.com/oatmeal3000/Transformer101Q



目录
相关文章
|
6月前
|
SQL HIVE
hive窗口函数应用实例
hive窗口函数应用实例
162 3
|
Java 中间件 Serverless
CSE:阿里在线应用如何演进成Serverless架构
**Cloud Service Engine**,简称**CSE**,是中间件部门研发的面向通用Serverless计算的中间件产品,目标是具备AWS Lambda的各种优势,同时可以解决AWS Lambda的关键技术缺陷。 AWS Lambda如果用于核心业务,可能会有以下缺陷:(仅代表个人观点) * 要求用户以Function为单位开发,全新的开发框架,云厂商强绑定。社区主
2966 0
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式
|
3月前
|
存储 监控 数据库
什么是聚集索引和非聚集索引?
【8月更文挑战第3天】
1326 5
|
6月前
|
存储 自然语言处理 分布式计算
围绕 transformers 构建现代 NLP 开发环境
本文将从“样本处理”,“模型开发”,“实验管理”,“工具链及可视化“ 几个角度介绍基于 tranformers 库做的重新设计,并简单聊聊个人对“软件2.0”的看法。
71806 2
|
SQL 移动开发 大数据
大数据技术之Hive SQL题库-中级2
大数据技术之Hive SQL题库-中级2
392 1
|
SQL 大数据 关系型数据库
大数据技术之Hive SQL题库-中级4
大数据技术之Hive SQL题库-中级4
407 0
|
Java 应用服务中间件 HSF
走进HSF源码
前言本文源自一次组内分享,于是接着这个机会,将HSF的源码阅读过程记录下来,以供自己温故而知新。如果有哪些地方理解不到位的,还请诸位批评指正!简介HSF (High-speed Service Framework),高速服务框架,是在阿里巴巴内部广泛使用的分布式RPC服务框架。众所周知,HSF一款与我们的日常生活密不可分的RPC框架;所谓RPC——远程过程调用,就是指像调用本地方法一样调用远程的方
991 0
走进HSF源码
|
机器学习/深度学习 算法
机器学习常见的损失函数以及何时使用它们
机器学习常见的损失函数以及何时使用它们
214 0
机器学习常见的损失函数以及何时使用它们