ERNIE 3.0 Titan:最强中文预训练模型

简介: 百度|ERNIE 3.0 Titan:探索更大规模的知识增强型语言理解和生成预训练论文标题:ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation论文链接:https://arxiv.org/abs/2112.12731论文作者:作者:Shuohuan Wang, Yu Sun, Yang Xiang, Haifeng Wang

论文简介


本文介绍了一个中文大语言模型。作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。为了探索扩展 ERNIE 3.0 的性能,作者在PaddlePaddle平台上训练了具有多达2600亿个参数的百亿参数模型 ERNIE 3.0 Titan。此外,作者设计了一个自监督的对抗损失和一个可控的语言建模损失,使ERNIE 3.0 Titan 生成可信且可控的文本。为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。实证结果表明,ERNIE 3.0 Titan在 68 个NLP数据集上的表现优于最先进的模型。


论文核心技术:

(1) 支持同时蒸馏多个学生模型;

(2) 提出即时蒸馏方法(OFD,On the Fly Distillation),更加低耗

(3) 引入辅助层蒸馏 (ALD),这是一种通过在蒸馏阶段堆叠额外的学生层并在微调阶段将其丢弃来提高蒸馏性能的技术。


模型结构


71.png


为了探索知识增强大规模预训练模型的有效性,本文提出了一种名为ERNIE 3.0 Framework的Continual Multi-Paradigms Unified Pre-training Framework,在包括纯文本和文本的海量无监督语料和知识图谱上的预训练模型。具体来说,ERNIE 3.0 Framework 允许多任务范式之间的协同预训练,其中各种类型的预训练任务在相应的任务范式中增量部署,使模型能够学习不同层次的知识,即有价值的词汇、句法和语义信息,更有效。受益于ERNIE 3.0 Framework的优势,ERNIE 3.0在自然语言理解和自然语言生成的丰富下游任务上取得了惊人的改进。理所当然地,本文中的 ERNIE 3.0 Titan 是建立在 ERNIE 3.0 Framework 之上的。


预训练任务


Word-aware Pre-training Tasks


(1) Knowledge Masked Language Modeling:知识遮蔽语言建模任务。它引入了短语掩蔽和命名实体掩蔽,可以预测整个掩蔽短语和命名实体,以帮助模型学习局部上下文和全局上下文中的依赖信息。(Ernie 1.0)


(2) Document Language Modeling:文档语言建模任务是传统语言建模任务的一个特殊版本,它在长文本上训练模型(针对长文本)

Structure-aware Pre-training Tasks


(1) Sentence Reordering:句子重排序任务,旨在通过重组排列后的片段来训练模型来学习句子之间的关系。最后,在训练前,一个给定的段落被随机分割成1到m个片段,所有的组合都按一个随机排列的顺序被打乱。然后,要求预先训练的模型重新组织这些排列的片段。


(2) Sentence Distance:句子距离任务是传统的下一个句子预测(NSP)任务的扩展,被广泛应用于各种预训练模型中,以提高其对句子级信息的学习能力,可以建模为一个3类分类问题。这三类表示两个句子是相邻的,不相邻(在同一文档和来自两个不同的文档)


Knowledge-aware Pre-training Task

(1) Universal Knowledge-Text Prediction:通识文本预测

(2) Credible and Controllable Generations:可信文本生成


69.png


模型性能


实证结果表明,ERNIE 3.0 Titan在68个NLP数据集上的表现优于最先进的模型。其中包括文本分类任务,信息抽取以及主题模型和阅读理解等等。

70.png

相关文章
|
传感器 芯片
STM32--PWR电源控制
STM32--PWR电源控制
754 0
STM32--PWR电源控制
|
机器学习/深度学习 数据采集 算法
探索LightGBM:类别特征与数据处理
探索LightGBM:类别特征与数据处理
1280 5
|
数据可视化 容器
Qt 之 QPushButton,信号与槽机制
Qt 之 QPushButton,信号与槽机制
392 0
|
存储 关系型数据库 数据库连接
flyway适配高斯数据库
flyway适配高斯数据库
727 0
|
消息中间件 Apache 数据安全/隐私保护
[ActiveMQ]修改默认密码
ActiveMQ使用的是jetty服务器, 在ActiveMQ目录下的conf/jetty.xml文件,vim打开 将property name为authenti...
2724 0
|
编解码 定位技术
谷歌地图分辨率表
版权声明:欢迎评论和转载,转载请注明来源。 https://blog.csdn.net/zy332719794/article/details/73949818 ...
3027 0
|
11月前
|
人工智能 缓存 Serverless
MCP Server 实践之旅第 3 站:MCP 协议亲和性的技术内幕
本文深入探讨了分布式架构中请求亲和性技术在Serverless范式下的实践。文章以MCP Server在函数计算平台的集成为例,剖析了基于SSE长连接通信模型的会话亲和、优雅升级等关键技术。通过双阶段协商机制与网关层协同设计,函数计算实现了MCP SSE会话亲和性保障,解决了无状态服务处理有状态请求的难题。同时,文章还展示了压测结果,验证了系统的稳定性和扩展能力,并总结了Serverless与有状态服务融合的技术创新点。
|
人工智能 编解码 JSON
Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频
Qwen2.5-VL 是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。
7684 18
Qwen2.5-VL:阿里通义千问最新开源视觉语言模型,能够理解超过1小时的长视频
|
弹性计算 安全
阿里云服务器快速配置安全组放行端口方法
小编在前天有分享过"阿里云服务器选择和设置自定义安全组配置方法",我们可以看到大部分云服务器商家都开始注重安全方面的设置。我们可以开放需要用到的端口,不用到的端口就直接给不开通或者屏蔽掉,这样可以确保服务器的安全。
11581 5
|
Python
Python教程:@符号的用法
@ 符号在 Python 中最常见的使用情况是在装饰器中。一个装饰器可以让你改变一个函数或类的行为。 @ 符号也可以作为一个数学运算符使用,因为它可以在Python中乘以矩阵。本教程将教你如何使用 Python 的@ 符号。
1747 0