预训练语言模型概述(持续更新ing...)

简介: 预训练语言模型概述(持续更新ing...)

1. 万物起源-文本表征和词向量


2. 万恶之源transformers


3. 训练目标


  1. Standard Language Model (SLM):用multi-class one-label分类任务范式,用autogressive范式,每次预测序列中的下一个token。常用于left to right模型,但也可以用于其他顺序。
  2. denoising objectives:对输入进行扰动,预测原始输入
  • Corrupted Text Reconstruction (CTR):仅计算扰动部分的损失函数
  • Full Text Reconstruction (FTR):计算所有输入文本的损失函数(无论是否经扰动)

其他各种Auxiliary Objective:

b5f2cf7f13924165b5c6be040a58a0d0.png

image.png


4. Noising Functions


image.png

  1. Masking:mask可以是根据分布随机生成的,也可以根据prior knowledge设计(如上图中的实体)。
  2. Replacement:span由另一种信息而非[MASK]填充
  3. Deletion:常与FTR loss共用
  4. Permutation


5. Directionality of Representations


  1. Left-to-Right
  2. Bidirectional
  3. 混合


应用这些策略的方式:attention masking

image.png


6. Typical Pre-training Methods


image.png


6.1 Left-to-Right Language Model

简称L2R LMs(AR LM变体)


预测下一个单词,或计算当前一系列单词出现的概率:

image.png


right-to-left LM类似:

image.png


6.2 Masked Language Models

简称MLM


6.3 Prefix and Encoder-Decoder

用全连接mask编码输入,以AR方式解码输出。


  1. Prefix Language Model:在同一套参数下,输出部分是left-to-right,输入部分是全连接mask。输入部分常用CTR目标,输出部分常用标准conditional language modeling目标
  2. Encoder-decoder:与Prefix Language Model类似,但编码和解码用不同的模型参数


7. 各模型总结

5e90ebea0abc475f9b51875f3eebf01e.png

相关文章
|
存储 传感器 自动驾驶
几种常见的点云格式数据解析与在线预览
3D模型在线转换网站支持pcd、pts、xyz、las、laz、asc、ply等点云格式文件在线预览,同时支持将点云格式在线转换为ply、xyz等模型格式。
7590 1
|
算法 数据处理
点云地面点滤波(Progressive Morphological Filter)算法介绍(PCL库)
点云地面点滤波(Progressive Morphological Filter)算法介绍(PCL库)
1932 0
点云地面点滤波(Progressive Morphological Filter)算法介绍(PCL库)
|
监控 前端开发 JavaScript
AST 代码扫描实战:如何保障代码质量
2020 年 618 大促已经过去,作为淘系每年重要的大促活动,淘系前端在其中扮演着什么样的角色,如何保证大促的平稳进行?又在其中应用了哪些新技术?淘系前端团队特此推出「618 系列|淘系前端技术分享」,为大家介绍 618 中的前端身影。 本篇来自于频道与D2C智能团队的菉竹,为大家介绍本次 618 大促中是如何用代码扫描做资损防控的。
3809 0
AST 代码扫描实战:如何保障代码质量
|
6月前
|
测试技术 Go 开发工具
Go语言项目工程化 — 常见开发工具与 CI/CD 支持
Go语言项目工程化实践中的开发工具与CI/CD支持,涵盖格式化、静态检查、依赖管理、构建打包、自动化测试及部署策略。内容包括常用工具如gofmt、go vet、golangci-lint、Docker、GitHub Actions等,并提供实战建议与总结,提升团队协作效率与项目质量。
|
9月前
|
jenkins Java Linux
Jenkins环境的部署及任务构建
以上就是Jenkins环境的部署及任务构建的全部内容。希望可以帮助你轻松上手Jenkins,让你的CI/CD之旅更加顺畅!
577 68
|
人工智能
LangGraph:构建多代理动态工作流的开源框架,支持人工干预、循环、持久性等复杂工作流自动化
LangGraph 是一个基于图结构的开源框架,专为构建状态化、多代理系统设计,支持循环、持久性和人工干预,适用于复杂的工作流自动化。
1811 12
LangGraph:构建多代理动态工作流的开源框架,支持人工干预、循环、持久性等复杂工作流自动化
|
11月前
|
机器学习/深度学习 算法 文件存储
神经架构搜索:自动化设计神经网络的方法
在人工智能(AI)和深度学习(Deep Learning)快速发展的背景下,神经网络架构的设计已成为一个日益复杂而关键的任务。传统上,研究人员和工程师需要通过经验和反复试验来手动设计神经网络,耗费大量时间和计算资源。随着模型规模的不断扩大,这种方法显得愈加低效和不够灵活。为了解决这一挑战,神经架构搜索(Neural Architecture Search,NAS)应运而生,成为自动化设计神经网络的重要工具。
|
自然语言处理 并行计算 API
Qwen模型应用:微调与部署实践
Qwen模型应用:微调与部署实践
2882 0
|
IDE 测试技术 持续交付
单元测试功
【9月更文挑战第03天】
285 5

热门文章

最新文章