ELECTRA 怎么样

简介: ELECTRA 怎么样

ELECTRA 的预训练速度是加快了,但从目前的实验来看,它相比同级别的 BERT 在下游任务上的效果并没有突出优势,可以试用,但是效果变差了也不用太失望。此外,如果你需要用到 MLM 部分的权重,那么也不能用 ELECTRA,因为 ELECTRA 的主体是判别器,它不是 MLM 模型;而 ELECTRA 中作为生成器的 MLM 模型,则比判别器简化,可能存在拟合能力不足、学习不充分等问题,并不是一个很好的预训练 MLM 模型。


至于 ELECTRA 背后的思想,即针对 MLM 随机 Mask 这一步过于简单进行改进,目前看来方向是没有错误的,但是将生成式模型换成判别式模型的有效性依然还需要进一步验证,如果有兴趣深入分析的读者,倒是可以进一步思考研究。


Transformer 101 个思考问题:


https://gitee.com/oatmeal3000/Transformer101Q



目录
相关文章
|
存储 弹性计算 编解码
阿里云服务器五代、六代、七代、八代实例有哪些?各自在性能方面有哪些提升?
阿里云服务器的实例规格经过多次升级之后,最新一代已经升级到第八代实例,当下主售的是以七代和八代云服务器为主,有的用户由于是初次接触阿里云服务器,所以不是很清楚阿里云服务器五代、六代、七代、八代实例有哪些,它们各自在云服务器性能上有哪些提升。下面小编为大家介绍下阿里云五代、六代、七代、八代云服务器实例规格分别有哪些以及每一代云服务器在性能方面具体有哪些提升,以供大家参考和了解。
阿里云服务器五代、六代、七代、八代实例有哪些?各自在性能方面有哪些提升?
|
JavaScript
DOM 属性列表(命名节点图 Named Node Map)
`DOM`的`Named Node Map`代表元素的属性列表,它是一个自动更新的节点集合。当属性增删时,列表随之变化。以下代码示例加载"books.xml",获取第一个`<book>`元素的属性节点列表,`x.length`表示属性数量,`x.getNamedItem("category").nodeValue`显示"category"属性值,如"cooking",并输出属性总数1。
|
安全 数据中心 机器学习/深度学习
|
6天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
17天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1327 7