预训练语言模型概述(持续更新ing...)

简介: 预训练语言模型概述(持续更新ing...)

1. 万物起源-文本表征和词向量


2. 万恶之源transformers


3. 训练目标


  1. Standard Language Model (SLM):用multi-class one-label分类任务范式,用autogressive范式,每次预测序列中的下一个token。常用于left to right模型,但也可以用于其他顺序。
  2. denoising objectives:对输入进行扰动,预测原始输入
  • Corrupted Text Reconstruction (CTR):仅计算扰动部分的损失函数
  • Full Text Reconstruction (FTR):计算所有输入文本的损失函数(无论是否经扰动)

其他各种Auxiliary Objective:

b5f2cf7f13924165b5c6be040a58a0d0.png

image.png


4. Noising Functions


image.png

  1. Masking:mask可以是根据分布随机生成的,也可以根据prior knowledge设计(如上图中的实体)。
  2. Replacement:span由另一种信息而非[MASK]填充
  3. Deletion:常与FTR loss共用
  4. Permutation


5. Directionality of Representations


  1. Left-to-Right
  2. Bidirectional
  3. 混合


应用这些策略的方式:attention masking

image.png


6. Typical Pre-training Methods


image.png


6.1 Left-to-Right Language Model

简称L2R LMs(AR LM变体)


预测下一个单词,或计算当前一系列单词出现的概率:

image.png


right-to-left LM类似:

image.png


6.2 Masked Language Models

简称MLM


6.3 Prefix and Encoder-Decoder

用全连接mask编码输入,以AR方式解码输出。


  1. Prefix Language Model:在同一套参数下,输出部分是left-to-right,输入部分是全连接mask。输入部分常用CTR目标,输出部分常用标准conditional language modeling目标
  2. Encoder-decoder:与Prefix Language Model类似,但编码和解码用不同的模型参数


7. 各模型总结

5e90ebea0abc475f9b51875f3eebf01e.png

相关文章
|
机器学习/深度学习 自然语言处理 算法
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
本文是作者在学习文本摘要任务的过程中,根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料(包括论文、博文、视频等)都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写,但会在本文中提供超链接。 本文将主要列举里程碑式的重要文本摘要论文。 注意:除文首的表格外,本文所参考的论文,如本人已撰写对应的学习博文,则不直接引用原论文,而引用我撰写的博文。 本文会长期更新。
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【LangChain系列】第五篇:大语言模型中的提示词,模型及输出简介及实践
【5月更文挑战第19天】LangChain是一个Python库,简化了与大型语言模型(LLM)如GPT-3.5-turbo的交互。通过ChatOpenAI类,开发者可以创建确定性输出的应用。提示词是指导LLM执行任务的关键,ChatPromptTemplate允许创建可重用的提示模板。输出解析器如StructuredOutputParser将模型的响应转化为结构化数据,便于应用处理。LangChain提供可重用性、一致性、可扩展性,并有一系列预建功能。它使得利用LLM构建复杂、直观的应用变得更加容易。
290 0
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】Rasa NLU以及Rasa Core概念和语法简介(超详细必看)
【机器学习】Rasa NLU以及Rasa Core概念和语法简介(超详细必看)
417 0
|
机器学习/深度学习 存储
【BERT-多标签文本分类实战】之六——数据加载与模型代码
【BERT-多标签文本分类实战】之六——数据加载与模型代码
427 0
【BERT-多标签文本分类实战】之六——数据加载与模型代码
|
机器学习/深度学习 数据采集 自然语言处理
【英文文本分类实战】之五——数据加载
【英文文本分类实战】之五——数据加载
|
机器学习/深度学习 自然语言处理 数据库
文本摘要数据集的整理、总结及介绍(持续更新ing...)
文本摘要数据集的整理、总结及介绍(持续更新ing...)
文本摘要数据集的整理、总结及介绍(持续更新ing...)
|
机器学习/深度学习 搜索推荐 PyTorch
机器学习/深度学习中的常用损失函数公式、原理与代码实践(持续更新ing...)
本文的结构是首先介绍一些常见的损失函数,然后介绍一些个性化的损失函数实例。
机器学习/深度学习中的常用损失函数公式、原理与代码实践(持续更新ing...)
|
自然语言处理
关于为什么有了通用BERT,却还需要特定领域BERT?-对此问题做出回答的相关理论和文章(如有)(持续更新ing...)
关于为什么有了通用BERT,却还需要特定领域BERT?-对此问题做出回答的相关理论和文章(如有)(持续更新ing...)
|
数据处理
主题论文总结3:维基百科生成任务(持续更新ing...)
主题论文总结3:维基百科生成任务(持续更新ing...)
|
机器学习/深度学习 人工智能 并行计算
深度学习模型训练推理——基础环境搭建推荐博文查阅顺序【❤️基础安装—认真帮大家整理了❤️】
博主这里梳理了自己过去两年,认真撰写的一些基础知识方面的干货博文,希望能够有效帮助到更多刚刚投身于ML、DL 领域不久的小伙伴们
381 0
深度学习模型训练推理——基础环境搭建推荐博文查阅顺序【❤️基础安装—认真帮大家整理了❤️】
下一篇
无影云桌面