ELECTRA 怎么样

简介: ELECTRA 怎么样

ELECTRA 的预训练速度是加快了,但从目前的实验来看,它相比同级别的 BERT 在下游任务上的效果并没有突出优势,可以试用,但是效果变差了也不用太失望。此外,如果你需要用到 MLM 部分的权重,那么也不能用 ELECTRA,因为 ELECTRA 的主体是判别器,它不是 MLM 模型;而 ELECTRA 中作为生成器的 MLM 模型,则比判别器简化,可能存在拟合能力不足、学习不充分等问题,并不是一个很好的预训练 MLM 模型。


至于 ELECTRA 背后的思想,即针对 MLM 随机 Mask 这一步过于简单进行改进,目前看来方向是没有错误的,但是将生成式模型换成判别式模型的有效性依然还需要进一步验证,如果有兴趣深入分析的读者,倒是可以进一步思考研究。


Transformer 101 个思考问题:


https://gitee.com/oatmeal3000/Transformer101Q



目录
相关文章
|
8月前
|
存储 弹性计算 编解码
阿里云服务器五代、六代、七代、八代实例有哪些?各自在性能方面有哪些提升?
阿里云服务器的实例规格经过多次升级之后,最新一代已经升级到第八代实例,当下主售的是以七代和八代云服务器为主,有的用户由于是初次接触阿里云服务器,所以不是很清楚阿里云服务器五代、六代、七代、八代实例有哪些,它们各自在云服务器性能上有哪些提升。下面小编为大家介绍下阿里云五代、六代、七代、八代云服务器实例规格分别有哪些以及每一代云服务器在性能方面具体有哪些提升,以供大家参考和了解。
阿里云服务器五代、六代、七代、八代实例有哪些?各自在性能方面有哪些提升?
|
8月前
|
存储 自然语言处理 分布式计算
围绕 transformers 构建现代 NLP 开发环境
本文将从“样本处理”,“模型开发”,“实验管理”,“工具链及可视化“ 几个角度介绍基于 tranformers 库做的重新设计,并简单聊聊个人对“软件2.0”的看法。
71818 2
|
8月前
|
JavaScript
DOM 属性列表(命名节点图 Named Node Map)
`DOM`的`Named Node Map`代表元素的属性列表,它是一个自动更新的节点集合。当属性增删时,列表随之变化。以下代码示例加载"books.xml",获取第一个`<book>`元素的属性节点列表,`x.length`表示属性数量,`x.getNamedItem("category").nodeValue`显示"category"属性值,如"cooking",并输出属性总数1。
|
安全 数据中心 机器学习/深度学习
|
5天前
|
供应链 监控 安全
|
7天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150231 10
|
15天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201928 14
对话 | ECS如何构筑企业上云的第一道安全防线

热门文章

最新文章