备案控制台

开发者社区人工智能文章正文

预训练语言模型概述（持续更新ing...）

2022-10-23 309 发布于内蒙古

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 预训练语言模型概述（持续更新ing...）

1. 万物起源-文本表征和词向量

2. 万恶之源transformers

3. 训练目标

Standard Language Model (SLM)：用multi-class one-label分类任务范式，用autogressive范式，每次预测序列中的下一个token。常用于left to right模型，但也可以用于其他顺序。
denoising objectives：对输入进行扰动，预测原始输入

Corrupted Text Reconstruction (CTR)：仅计算扰动部分的损失函数
Full Text Reconstruction (FTR)：计算所有输入文本的损失函数（无论是否经扰动）

其他各种Auxiliary Objective：

4. Noising Functions

Masking：mask可以是根据分布随机生成的，也可以根据prior knowledge设计（如上图中的实体）。
Replacement：span由另一种信息而非[MASK]填充
Deletion：常与FTR loss共用
Permutation

5. Directionality of Representations

Left-to-Right
Bidirectional
混合

应用这些策略的方式：attention masking

6. Typical Pre-training Methods

6.1 Left-to-Right Language Model

简称L2R LMs（AR LM变体）

预测下一个单词，或计算当前一系列单词出现的概率：

right-to-left LM类似：

6.2 Masked Language Models

简称MLM

6.3 Prefix and Encoder-Decoder

用全连接mask编码输入，以AR方式解码输出。

Prefix Language Model：在同一套参数下，输出部分是left-to-right，输入部分是全连接mask。输入部分常用CTR目标，输出部分常用标准conditional language modeling目标
Encoder-decoder：与Prefix Language Model类似，但编码和解码用不同的模型参数

7. 各模型总结

文章标签：

vr&ar

搜索推荐

诸神缄默不语

+关注

目录

打赏

0

0

0

0

20

相关文章

游客iigf2m33ba53k

|

机器学习/深度学习人工智能自然语言处理

一文尽览 | 开放世界目标检测的近期工作及简析！（基于Captioning/CLIP/伪标签/Prompt）（上）

人类通过自然监督，即探索视觉世界和倾听他人描述情况，学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习，并将其与口语词汇联系起来，从而形成了丰富的视觉和语义词汇，不仅可以用于检测物体，还可以用于其他任务，如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。

游客iigf2m33ba53k

1507 0 0

一文尽览 | 开放世界目标检测的近期工作及简析！（基于Captioning/CLIP/伪标签/Prompt）（上）

诸神缄默不语

|

机器学习/深度学习自然语言处理算法

文本摘要（text summarization）任务：研究范式，重要模型，评估指标（持续更新ing...）

本文是作者在学习文本摘要任务的过程中，根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料（包括论文、博文、视频等）都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写，但会在本文中提供超链接。本文将主要列举里程碑式的重要文本摘要论文。注意：除文首的表格外，本文所参考的论文，如本人已撰写对应的学习博文，则不直接引用原论文，而引用我撰写的博文。本文会长期更新。

诸神缄默不语

1362 0 0

文本摘要（text summarization）任务：研究范式，重要模型，评估指标（持续更新ing...）

Freedom123

|

9月前

|

机器学习/深度学习人工智能

【LangChain系列】第九篇：LLM 应用评估简介及实践

【5月更文挑战第23天】本文探讨了如何评估复杂且精密的语言模型（LLMs）应用。通过创建QA应用程序，如使用GPT-3.5-Turbo模型，然后构建测试数据，包括手动创建和使用LLM生成示例。接着，通过手动评估、调试及LLM辅助评估来衡量性能。手动评估借助langchain.debug工具提供执行细节，而QAEvalChain则利用LLM的语义理解能力进行评分。这些方法有助于优化和提升LLM应用程序的准确性和效率。

Freedom123

628 8 8

Freedom123

|

9月前

|

机器学习/深度学习人工智能自然语言处理

【LangChain系列】第五篇：大语言模型中的提示词，模型及输出简介及实践

【5月更文挑战第19天】LangChain是一个Python库，简化了与大型语言模型（LLM）如GPT-3.5-turbo的交互。通过ChatOpenAI类，开发者可以创建确定性输出的应用。提示词是指导LLM执行任务的关键，ChatPromptTemplate允许创建可重用的提示模板。输出解析器如StructuredOutputParser将模型的响应转化为结构化数据，便于应用处理。LangChain提供可重用性、一致性、可扩展性，并有一系列预建功能。它使得利用LLM构建复杂、直观的应用变得更加容易。

Freedom123

370 0 0

汀丶人工智能

|

人工智能自然语言处理机器人

Prompt learning 教学[进阶篇]：简介Prompt框架并给出自然语言处理技术：Few-Shot Prompting、Self-Consistency等；项目实战搭建知识库内容机器人

Prompt learning 教学[进阶篇]：简介Prompt框架并给出自然语言处理技术：Few-Shot Prompting、Self-Consistency等；项目实战搭建知识库内容机器人

汀丶人工智能

4881 1 1

Prompt learning 教学[进阶篇]：简介Prompt框架并给出自然语言处理技术：Few-Shot Prompting、Self-Consistency等；项目实战搭建知识库内容机器人

热烈的马

|

9月前

|

自然语言处理 Python

BERT模型基本理念、工作原理、配置讲解（图文解释）

BERT模型基本理念、工作原理、配置讲解（图文解释）

热烈的马

1070 0 0

汀丶人工智能

|

编解码人工智能异构计算

Midjourney|文心一格prompt教程[进阶篇]：Midjourney Prompt 高级参数、各版本差异、官方提供常见问题

Midjourney|文心一格prompt教程[进阶篇]：Midjourney Prompt 高级参数、各版本差异、官方提供常见问题

汀丶人工智能

431 0 0

Midjourney|文心一格prompt教程[进阶篇]：Midjourney Prompt 高级参数、各版本差异、官方提供常见问题

汀丶人工智能

|

人工智能自然语言处理前端开发

Prompt工程师指南资料整合篇：Prompt最新前沿论文整理合集、工具和库推荐、数据集整合、推荐阅读内容等，超全面资料

Prompt工程师指南资料整合篇：Prompt最新前沿论文整理合集、工具和库推荐、数据集整合、推荐阅读内容等，超全面资料

汀丶人工智能

240 0 0

汀丶人工智能

|

人工智能自然语言处理机器人

Prompt工程师指南从基础到进阶篇：用于开发和优化提示，以有效地使用语言模型（LMs）进行各种应用和研究主题

Prompt工程师指南从基础到进阶篇：用于开发和优化提示，以有效地使用语言模型（LMs）进行各种应用和研究主题

汀丶人工智能

611 0 0

诸神缄默不语

|

自然语言处理 PyTorch 算法框架/工具

离线解耦的文本表征方法（持续更新ing...）

本文仅介绍离线、解耦的、直接对文本进行表征的方法。分成通过词嵌入池化得到句子嵌入，和直接进行句子嵌入两种做法。主要用PyTorch实现。本文将使用一个数据集来撰写相应代码，并使用简单的线性分类器来实现multi-class文本分类，分类模型的代码（我每个都是跟前面的文本表征部分直接写在同一个脚本里的）和各表征方法的效果在第4节展示。本文使用的分词方式是jieba默认模式。其他注意事项看具体各分节内容。

诸神缄默不语

358 0 2

离线解耦的文本表征方法（持续更新ing...）

热门文章

最新文章

6亿数据秒级查询，ClickHouse太快了！

Unsafe工具类 | 带你学《Java语言高级特性》之八十八

用模拟器加载基于ARM平台的WinCE6.0 内核（NK.bin）

Windows新0day漏洞可穿透UAC

Java 多线程之 Runnable

微信将整顿多级分销欺诈行为严重者将永久封号

独家 | Face++印奇：AI是场持久战，但第一阶段明年结束

给文档库添加项目级权限控制

python中if __name__ == '__main__': 的解析

《UNIX网络编程》中第一个timer_server的例子

Dpkg软件包管理工具使用指南

RPM软件包管理工具使用指南

Apt软件包管理工具使用指南

Yum与Dnf软件包管理器使用指南

图解MySQL【日志】——Redo Log

Linux软件包管理工具概览

基于扩频解扩+turbo译码的16QAM图传通信系统matlab误码率仿真,扩频参数可设置

通过MATLAB实现PID控制器,积分分离控制器以及滑模控制器

基于Itô扩散过程的交易策略偏微分方程matlab求解与仿真

draw.io：开源款白板/图表绘制利器

相关课程

更多

面向开发者的LLM入门课程

深度学习理论与实战（基于TensorFlow实现）

深度学习框架TensorFlow入门

深度学习原理与实践

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

机器学习入门-概念原理及常用算法

相关电子书

更多

学习深度学习的四个步骤

阿里云视觉计算开发者系列手册-目标检测入门必读指南

从零到一：IOS平台TensorFlow入门及应用详解（附源

相关实验场景

更多

以电商场景为例搭建AI语义搜索应用

函数计算一键部署AI大语言模型并会话

【自由换模型】基于函数计算一键部署 Stable Diffusion

使用PAI-快速开始，低代码实现大语言模型微调和部署

基于Higress构建AIGC ChatBot

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

下一篇

阿里云oss简介和如何对接使用

目录

目录