预训练语言模型概述(持续更新ing...)

简介: 预训练语言模型概述(持续更新ing...)

1. 万物起源-文本表征和词向量


2. 万恶之源transformers


3. 训练目标


  1. Standard Language Model (SLM):用multi-class one-label分类任务范式,用autogressive范式,每次预测序列中的下一个token。常用于left to right模型,但也可以用于其他顺序。
  2. denoising objectives:对输入进行扰动,预测原始输入
  • Corrupted Text Reconstruction (CTR):仅计算扰动部分的损失函数
  • Full Text Reconstruction (FTR):计算所有输入文本的损失函数(无论是否经扰动)

其他各种Auxiliary Objective:

b5f2cf7f13924165b5c6be040a58a0d0.png

image.png


4. Noising Functions


image.png

  1. Masking:mask可以是根据分布随机生成的,也可以根据prior knowledge设计(如上图中的实体)。
  2. Replacement:span由另一种信息而非[MASK]填充
  3. Deletion:常与FTR loss共用
  4. Permutation


5. Directionality of Representations


  1. Left-to-Right
  2. Bidirectional
  3. 混合


应用这些策略的方式:attention masking

image.png


6. Typical Pre-training Methods


image.png


6.1 Left-to-Right Language Model

简称L2R LMs(AR LM变体)


预测下一个单词,或计算当前一系列单词出现的概率:

image.png


right-to-left LM类似:

image.png


6.2 Masked Language Models

简称MLM


6.3 Prefix and Encoder-Decoder

用全连接mask编码输入,以AR方式解码输出。


  1. Prefix Language Model:在同一套参数下,输出部分是left-to-right,输入部分是全连接mask。输入部分常用CTR目标,输出部分常用标准conditional language modeling目标
  2. Encoder-decoder:与Prefix Language Model类似,但编码和解码用不同的模型参数


7. 各模型总结

5e90ebea0abc475f9b51875f3eebf01e.png

相关文章
|
机器学习/深度学习 自然语言处理 算法
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
本文是作者在学习文本摘要任务的过程中,根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料(包括论文、博文、视频等)都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写,但会在本文中提供超链接。 本文将主要列举里程碑式的重要文本摘要论文。 注意:除文首的表格外,本文所参考的论文,如本人已撰写对应的学习博文,则不直接引用原论文,而引用我撰写的博文。 本文会长期更新。
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【LangChain系列】第五篇:大语言模型中的提示词,模型及输出简介及实践
【5月更文挑战第19天】LangChain是一个Python库,简化了与大型语言模型(LLM)如GPT-3.5-turbo的交互。通过ChatOpenAI类,开发者可以创建确定性输出的应用。提示词是指导LLM执行任务的关键,ChatPromptTemplate允许创建可重用的提示模板。输出解析器如StructuredOutputParser将模型的响应转化为结构化数据,便于应用处理。LangChain提供可重用性、一致性、可扩展性,并有一系列预建功能。它使得利用LLM构建复杂、直观的应用变得更加容易。
111 0
|
机器学习/深度学习 人工智能 自然语言处理
Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人
Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人
Prompt learning 教学[进阶篇]:简介Prompt框架并给出自然语言处理技术:Few-Shot Prompting、Self-Consistency等;项目实战搭建知识库内容机器人
|
1月前
|
自然语言处理 Python
BERT模型基本理念、工作原理、配置讲解(图文解释)
BERT模型基本理念、工作原理、配置讲解(图文解释)
519 0
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】Rasa NLU以及Rasa Core概念和语法简介(超详细必看)
【机器学习】Rasa NLU以及Rasa Core概念和语法简介(超详细必看)
251 0
|
9月前
|
人工智能 自然语言处理 PyTorch
NLP信息抽取全解析:从命名实体到事件抽取的PyTorch实战指南
NLP信息抽取全解析:从命名实体到事件抽取的PyTorch实战指南
470 0
|
存储 算法 计算机视觉
【项目实践】从零开始学习Deep SORT+YOLO V3进行多目标跟踪(附注释项目代码)(二)
【项目实践】从零开始学习Deep SORT+YOLO V3进行多目标跟踪(附注释项目代码)(二)
157 0
|
机器学习/深度学习 算法 决策智能
【项目实践】从零开始学习Deep SORT+YOLO V3进行多目标跟踪(附注释项目代码)(一)
【项目实践】从零开始学习Deep SORT+YOLO V3进行多目标跟踪(附注释项目代码)(一)
228 0
|
自然语言处理 PyTorch 算法框架/工具
离线解耦的文本表征方法(持续更新ing...)
本文仅介绍离线、解耦的、直接对文本进行表征的方法。分成通过词嵌入池化得到句子嵌入,和直接进行句子嵌入两种做法。主要用PyTorch实现。 本文将使用一个数据集来撰写相应代码,并使用简单的线性分类器来实现multi-class文本分类,分类模型的代码(我每个都是跟前面的文本表征部分直接写在同一个脚本里的)和各表征方法的效果在第4节展示。 本文使用的分词方式是jieba默认模式。其他注意事项看具体各分节内容。
离线解耦的文本表征方法(持续更新ing...)
|
机器学习/深度学习 自然语言处理
【BERT-多标签文本分类实战】之二——BERT的地位与名词术语解释
【BERT-多标签文本分类实战】之二——BERT的地位与名词术语解释
264 0