ERNIE 3.0 Titan:最强中文预训练模型

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 百度|ERNIE 3.0 Titan:探索更大规模的知识增强型语言理解和生成预训练论文标题:ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation论文链接:https://arxiv.org/abs/2112.12731论文作者:作者:Shuohuan Wang, Yu Sun, Yang Xiang, Haifeng Wang

论文简介


本文介绍了一个中文大语言模型。作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。为了探索扩展 ERNIE 3.0 的性能,作者在PaddlePaddle平台上训练了具有多达2600亿个参数的百亿参数模型 ERNIE 3.0 Titan。此外,作者设计了一个自监督的对抗损失和一个可控的语言建模损失,使ERNIE 3.0 Titan 生成可信且可控的文本。为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。实证结果表明,ERNIE 3.0 Titan在 68 个NLP数据集上的表现优于最先进的模型。


论文核心技术:

(1) 支持同时蒸馏多个学生模型;

(2) 提出即时蒸馏方法(OFD,On the Fly Distillation),更加低耗

(3) 引入辅助层蒸馏 (ALD),这是一种通过在蒸馏阶段堆叠额外的学生层并在微调阶段将其丢弃来提高蒸馏性能的技术。


模型结构


71.png


为了探索知识增强大规模预训练模型的有效性,本文提出了一种名为ERNIE 3.0 Framework的Continual Multi-Paradigms Unified Pre-training Framework,在包括纯文本和文本的海量无监督语料和知识图谱上的预训练模型。具体来说,ERNIE 3.0 Framework 允许多任务范式之间的协同预训练,其中各种类型的预训练任务在相应的任务范式中增量部署,使模型能够学习不同层次的知识,即有价值的词汇、句法和语义信息,更有效。受益于ERNIE 3.0 Framework的优势,ERNIE 3.0在自然语言理解和自然语言生成的丰富下游任务上取得了惊人的改进。理所当然地,本文中的 ERNIE 3.0 Titan 是建立在 ERNIE 3.0 Framework 之上的。


预训练任务


Word-aware Pre-training Tasks


(1) Knowledge Masked Language Modeling:知识遮蔽语言建模任务。它引入了短语掩蔽和命名实体掩蔽,可以预测整个掩蔽短语和命名实体,以帮助模型学习局部上下文和全局上下文中的依赖信息。(Ernie 1.0)


(2) Document Language Modeling:文档语言建模任务是传统语言建模任务的一个特殊版本,它在长文本上训练模型(针对长文本)

Structure-aware Pre-training Tasks


(1) Sentence Reordering:句子重排序任务,旨在通过重组排列后的片段来训练模型来学习句子之间的关系。最后,在训练前,一个给定的段落被随机分割成1到m个片段,所有的组合都按一个随机排列的顺序被打乱。然后,要求预先训练的模型重新组织这些排列的片段。


(2) Sentence Distance:句子距离任务是传统的下一个句子预测(NSP)任务的扩展,被广泛应用于各种预训练模型中,以提高其对句子级信息的学习能力,可以建模为一个3类分类问题。这三类表示两个句子是相邻的,不相邻(在同一文档和来自两个不同的文档)


Knowledge-aware Pre-training Task

(1) Universal Knowledge-Text Prediction:通识文本预测

(2) Credible and Controllable Generations:可信文本生成


69.png


模型性能


实证结果表明,ERNIE 3.0 Titan在68个NLP数据集上的表现优于最先进的模型。其中包括文本分类任务,信息抽取以及主题模型和阅读理解等等。

70.png

相关文章
|
传感器 芯片
STM32--PWR电源控制
STM32--PWR电源控制
530 0
STM32--PWR电源控制
|
数据可视化 容器
Qt 之 QPushButton,信号与槽机制
Qt 之 QPushButton,信号与槽机制
321 0
|
存储 关系型数据库 数据库连接
flyway适配高斯数据库
flyway适配高斯数据库
633 0
|
消息中间件 Apache 数据安全/隐私保护
[ActiveMQ]修改默认密码
ActiveMQ使用的是jetty服务器, 在ActiveMQ目录下的conf/jetty.xml文件,vim打开 将property name为authenti...
2580 0
|
编解码 定位技术
谷歌地图分辨率表
版权声明:欢迎评论和转载,转载请注明来源。 https://blog.csdn.net/zy332719794/article/details/73949818 ...
2658 0
|
7月前
|
人工智能 缓存 Serverless
MCP Server 实践之旅第 3 站:MCP 协议亲和性的技术内幕
本文深入探讨了分布式架构中请求亲和性技术在Serverless范式下的实践。文章以MCP Server在函数计算平台的集成为例,剖析了基于SSE长连接通信模型的会话亲和、优雅升级等关键技术。通过双阶段协商机制与网关层协同设计,函数计算实现了MCP SSE会话亲和性保障,解决了无状态服务处理有状态请求的难题。同时,文章还展示了压测结果,验证了系统的稳定性和扩展能力,并总结了Serverless与有状态服务融合的技术创新点。
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率
ModernBERT 是由英伟达和 HuggingFace 等机构联合开源的新一代编码器模型,支持长上下文处理,性能超越 SOTA,适合多种自然语言处理任务。
456 7
ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率
|
11月前
|
人工智能 算法 大数据
【天池大赛】历届比赛资料
【天池大赛】历届比赛资料
|
弹性计算 安全
阿里云服务器快速配置安全组放行端口方法
小编在前天有分享过"阿里云服务器选择和设置自定义安全组配置方法",我们可以看到大部分云服务器商家都开始注重安全方面的设置。我们可以开放需要用到的端口,不用到的端口就直接给不开通或者屏蔽掉,这样可以确保服务器的安全。
10984 5
|
机器学习/深度学习 人工智能 自然语言处理