预训练语言模型概述(持续更新ing...)

简介: 预训练语言模型概述(持续更新ing...)

1. 万物起源-文本表征和词向量


2. 万恶之源transformers


3. 训练目标


  1. Standard Language Model (SLM):用multi-class one-label分类任务范式,用autogressive范式,每次预测序列中的下一个token。常用于left to right模型,但也可以用于其他顺序。
  2. denoising objectives:对输入进行扰动,预测原始输入
  • Corrupted Text Reconstruction (CTR):仅计算扰动部分的损失函数
  • Full Text Reconstruction (FTR):计算所有输入文本的损失函数(无论是否经扰动)

其他各种Auxiliary Objective:

b5f2cf7f13924165b5c6be040a58a0d0.png

image.png


4. Noising Functions


image.png

  1. Masking:mask可以是根据分布随机生成的,也可以根据prior knowledge设计(如上图中的实体)。
  2. Replacement:span由另一种信息而非[MASK]填充
  3. Deletion:常与FTR loss共用
  4. Permutation


5. Directionality of Representations


  1. Left-to-Right
  2. Bidirectional
  3. 混合


应用这些策略的方式:attention masking

image.png


6. Typical Pre-training Methods


image.png


6.1 Left-to-Right Language Model

简称L2R LMs(AR LM变体)


预测下一个单词,或计算当前一系列单词出现的概率:

image.png


right-to-left LM类似:

image.png


6.2 Masked Language Models

简称MLM


6.3 Prefix and Encoder-Decoder

用全连接mask编码输入,以AR方式解码输出。


  1. Prefix Language Model:在同一套参数下,输出部分是left-to-right,输入部分是全连接mask。输入部分常用CTR目标,输出部分常用标准conditional language modeling目标
  2. Encoder-decoder:与Prefix Language Model类似,但编码和解码用不同的模型参数


7. 各模型总结

5e90ebea0abc475f9b51875f3eebf01e.png

相关文章
|
机器学习/深度学习 自然语言处理 算法
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
本文是作者在学习文本摘要任务的过程中,根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料(包括论文、博文、视频等)都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写,但会在本文中提供超链接。 本文将主要列举里程碑式的重要文本摘要论文。 注意:除文首的表格外,本文所参考的论文,如本人已撰写对应的学习博文,则不直接引用原论文,而引用我撰写的博文。 本文会长期更新。
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
|
6月前
|
人工智能 测试技术 UED
论文介绍:ReALM——作为语言建模的参考解析
【4月更文挑战第8天】Apple研究员提出的ReALM框架旨在改善AI在处理上下文信息时的准确性和自然性,特别是对于屏幕内容的理解。通过将参考解析转化为语言建模,ReALM能有效编码和解析屏幕实体,提高智能助手处理用户查询的能力。实验显示,ReALM在处理屏幕、对话和背景实体参考时超越了GPT-3.5和GPT-4。尽管存在挑战,如复杂空间位置理解的局限性,但ReALM为智能助手的交互体验带来了显著提升,且其模块化设计利于升级和维护。
195 2
论文介绍:ReALM——作为语言建模的参考解析
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【LangChain系列】第五篇:大语言模型中的提示词,模型及输出简介及实践
【5月更文挑战第19天】LangChain是一个Python库,简化了与大型语言模型(LLM)如GPT-3.5-turbo的交互。通过ChatOpenAI类,开发者可以创建确定性输出的应用。提示词是指导LLM执行任务的关键,ChatPromptTemplate允许创建可重用的提示模板。输出解析器如StructuredOutputParser将模型的响应转化为结构化数据,便于应用处理。LangChain提供可重用性、一致性、可扩展性,并有一系列预建功能。它使得利用LLM构建复杂、直观的应用变得更加容易。
275 0
|
6月前
|
自然语言处理 Python
BERT模型基本理念、工作原理、配置讲解(图文解释)
BERT模型基本理念、工作原理、配置讲解(图文解释)
757 0
|
人工智能 自然语言处理 前端开发
Prompt工程师指南资料整合篇:Prompt最新前沿论文整理合集、工具和库推荐、数据集整合、推荐阅读内容等,超全面资料
Prompt工程师指南资料整合篇:Prompt最新前沿论文整理合集、工具和库推荐、数据集整合、推荐阅读内容等,超全面资料
|
人工智能 自然语言处理 机器人
Prompt工程师指南从基础到进阶篇:用于开发和优化提示,以有效地使用语言模型(LMs)进行各种应用和研究主题
Prompt工程师指南从基础到进阶篇:用于开发和优化提示,以有效地使用语言模型(LMs)进行各种应用和研究主题
|
机器学习/深度学习 存储
【BERT-多标签文本分类实战】之六——数据加载与模型代码
【BERT-多标签文本分类实战】之六——数据加载与模型代码
409 0
【BERT-多标签文本分类实战】之六——数据加载与模型代码
|
机器学习/深度学习 PyTorch 算法框架/工具
【BERT-多标签文本分类实战】之一——实战项目总览
【BERT-多标签文本分类实战】之一——实战项目总览
407 0
【BERT-多标签文本分类实战】之一——实战项目总览
|
自然语言处理 PyTorch 算法框架/工具
离线解耦的文本表征方法(持续更新ing...)
本文仅介绍离线、解耦的、直接对文本进行表征的方法。分成通过词嵌入池化得到句子嵌入,和直接进行句子嵌入两种做法。主要用PyTorch实现。 本文将使用一个数据集来撰写相应代码,并使用简单的线性分类器来实现multi-class文本分类,分类模型的代码(我每个都是跟前面的文本表征部分直接写在同一个脚本里的)和各表征方法的效果在第4节展示。 本文使用的分词方式是jieba默认模式。其他注意事项看具体各分节内容。
离线解耦的文本表征方法(持续更新ing...)
|
机器学习/深度学习 数据采集 PyTorch
从零开始学Pytorch(十六)之模型微调
从零开始学Pytorch(十六)之模型微调
从零开始学Pytorch(十六)之模型微调
下一篇
无影云桌面