1. 万物起源-文本表征和词向量
2. 万恶之源transformers
3. 训练目标
- Standard Language Model (SLM):用multi-class one-label分类任务范式,用autogressive范式,每次预测序列中的下一个token。常用于left to right模型,但也可以用于其他顺序。
- denoising objectives:对输入进行扰动,预测原始输入
- Corrupted Text Reconstruction (CTR):仅计算扰动部分的损失函数
- Full Text Reconstruction (FTR):计算所有输入文本的损失函数(无论是否经扰动)
其他各种Auxiliary Objective:
4. Noising Functions
- Masking:mask可以是根据分布随机生成的,也可以根据prior knowledge设计(如上图中的实体)。
- Replacement:span由另一种信息而非[MASK]填充
- Deletion:常与FTR loss共用
- Permutation
5. Directionality of Representations
- Left-to-Right
- Bidirectional
- 混合
应用这些策略的方式:attention masking
6. Typical Pre-training Methods
6.1 Left-to-Right Language Model
简称L2R LMs(AR LM变体)
预测下一个单词,或计算当前一系列单词出现的概率:
right-to-left LM类似:
6.2 Masked Language Models
简称MLM
6.3 Prefix and Encoder-Decoder
用全连接mask编码输入,以AR方式解码输出。
- Prefix Language Model:在同一套参数下,输出部分是left-to-right,输入部分是全连接mask。输入部分常用CTR目标,输出部分常用标准conditional language modeling目标
- Encoder-decoder:与Prefix Language Model类似,但编码和解码用不同的模型参数
7. 各模型总结