ERNIE 3.0 Titan:最强中文预训练模型

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 百度|ERNIE 3.0 Titan:探索更大规模的知识增强型语言理解和生成预训练论文标题:ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation论文链接:https://arxiv.org/abs/2112.12731论文作者:作者:Shuohuan Wang, Yu Sun, Yang Xiang, Haifeng Wang

论文简介


本文介绍了一个中文大语言模型。作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。为了探索扩展 ERNIE 3.0 的性能,作者在PaddlePaddle平台上训练了具有多达2600亿个参数的百亿参数模型 ERNIE 3.0 Titan。此外,作者设计了一个自监督的对抗损失和一个可控的语言建模损失,使ERNIE 3.0 Titan 生成可信且可控的文本。为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。实证结果表明,ERNIE 3.0 Titan在 68 个NLP数据集上的表现优于最先进的模型。


论文核心技术:

(1) 支持同时蒸馏多个学生模型;

(2) 提出即时蒸馏方法(OFD,On the Fly Distillation),更加低耗

(3) 引入辅助层蒸馏 (ALD),这是一种通过在蒸馏阶段堆叠额外的学生层并在微调阶段将其丢弃来提高蒸馏性能的技术。


模型结构


71.png


为了探索知识增强大规模预训练模型的有效性,本文提出了一种名为ERNIE 3.0 Framework的Continual Multi-Paradigms Unified Pre-training Framework,在包括纯文本和文本的海量无监督语料和知识图谱上的预训练模型。具体来说,ERNIE 3.0 Framework 允许多任务范式之间的协同预训练,其中各种类型的预训练任务在相应的任务范式中增量部署,使模型能够学习不同层次的知识,即有价值的词汇、句法和语义信息,更有效。受益于ERNIE 3.0 Framework的优势,ERNIE 3.0在自然语言理解和自然语言生成的丰富下游任务上取得了惊人的改进。理所当然地,本文中的 ERNIE 3.0 Titan 是建立在 ERNIE 3.0 Framework 之上的。


预训练任务


Word-aware Pre-training Tasks


(1) Knowledge Masked Language Modeling:知识遮蔽语言建模任务。它引入了短语掩蔽和命名实体掩蔽,可以预测整个掩蔽短语和命名实体,以帮助模型学习局部上下文和全局上下文中的依赖信息。(Ernie 1.0)


(2) Document Language Modeling:文档语言建模任务是传统语言建模任务的一个特殊版本,它在长文本上训练模型(针对长文本)

Structure-aware Pre-training Tasks


(1) Sentence Reordering:句子重排序任务,旨在通过重组排列后的片段来训练模型来学习句子之间的关系。最后,在训练前,一个给定的段落被随机分割成1到m个片段,所有的组合都按一个随机排列的顺序被打乱。然后,要求预先训练的模型重新组织这些排列的片段。


(2) Sentence Distance:句子距离任务是传统的下一个句子预测(NSP)任务的扩展,被广泛应用于各种预训练模型中,以提高其对句子级信息的学习能力,可以建模为一个3类分类问题。这三类表示两个句子是相邻的,不相邻(在同一文档和来自两个不同的文档)


Knowledge-aware Pre-training Task

(1) Universal Knowledge-Text Prediction:通识文本预测

(2) Credible and Controllable Generations:可信文本生成


69.png


模型性能


实证结果表明,ERNIE 3.0 Titan在68个NLP数据集上的表现优于最先进的模型。其中包括文本分类任务,信息抽取以及主题模型和阅读理解等等。

70.png

相关文章
|
6月前
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
6月前
|
数据可视化 API 异构计算
一分钟部署 Llama3 中文大模型,没别的,就是快
Meta开源了80亿和700亿参数的大模型,挑战百度创始人李彦宏的观点。这些模型在性能上逼近GPT-4和Claude3。此外,一个400B的超大模型即将发布。Huggingface上已有多个Llama3中文微调版本。无GPU用户可使用量化模型在CPU上运行,如8B模型用8bit量化,70B模型用4bit量化。最佳中文微调版是zhouzr/Llama3-8B-Chinese-Chat-GGUF,可在三分钟内通过Sealos公有云快速部署,搭配WebUI如Lobe Chat进行交互。
551 2
|
1月前
|
测试技术 Apache
mixtral大模型
Mixtral 是一种具有开放权重的高质量稀疏专家混合模型 (SMoE)。根据 Apache 2.0 许可。 Mixtral 在大多数基准测试中都优于 Llama 2 70B,推理速度提高了 6 倍。它是最强大的开放权重模型,具有宽松的许可证,也是成本/性能权衡方面的最佳模型。
|
2月前
|
人工智能 测试技术 Apache
Mistral 大语言模型
Mistral AI 是一家由 Meta Platforms 和 Google DeepMind 前员工创立的法国人工智能公司,成立于 2023 年 4 月,并在同年 10 月筹集了 3.85 亿欧元,估值超过 20 亿美元。其愿景是通过创新打造开放、高效、有用且值得信赖的人工智能模型。Mistral AI 提供 Mistral-7B 大型语言模型,参数达 70 亿,在多个基准测试中优于 Llama 2 13B 和 Llama 1 34B。此外,还推出了开放权重的 Mixtral 大语言模型,性能卓越,推理速度提升了 6 倍。
|
6月前
|
人工智能 语音技术
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
中英文混合输出是文本转语音(TTS)项目中很常见的需求场景,尤其在技术文章或者技术视频领域里,其中文文本中一定会夹杂着海量的英文单词,我们当然不希望AI口播只会念中文,Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理,但更新了底模之后,V2.0以上版本支持了中英文混合推理(mix)模式。
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
|
机器学习/深度学习 存储 自然语言处理
使用QLoRA对Llama 2进行微调的详细笔记
使用QLoRA对Llama 2进行微调是我们常用的一个方法,但是在微调时会遇到各种各样的问题,所以在本文中,将尝试以详细注释的方式给出一些常见问题的答案。这些问题是特定于代码的,大多数注释都是针对所涉及的开源库以及所使用的方法和类的问题。
587 0
|
弹性计算 JSON 自然语言处理
【玩转AIGC系列】使用Megatron-Deepspeed训练GPT-2并生成文本
本文介绍如何使用GPU云服务器,使用Megatron-Deepspeed框架训练GPT-2模型并生成文本。
【玩转AIGC系列】使用Megatron-Deepspeed训练GPT-2并生成文本
|
机器学习/深度学习 自然语言处理 算法
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型(1)
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型
723 0
|
机器学习/深度学习 人工智能 自然语言处理
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型(2)
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型
570 0
|
机器学习/深度学习 自然语言处理 算法
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(1)
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型
153 0