Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

简介: Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

1. Background & Motivation


image.png

image.png

本文想要证明:任务的textual domain仍然有效。

现存工作大多仅在一个领域、用多样性比预训练模型更弱的语料微调一次,而连续预训练的优势是否与可获得有标签任务数据、目标域和原始预训练语料域的相似性等元素有关,扔待探究。

image.png

本文主要研究RoBERTa在非预训练语料域上的分类任务表现在连续预训练之下的影响。


2. DAPT


image.png


2.1 数据集和实验

image.png

baseline:直接在每个分类任务上finetune

image.png

0d10da5d655344d9a2b06730b99e2c1c.png


2.2 分析域相似性

在海量的域测试集文本上一万个最常见的unigram(去掉停用词)

image.png

DAPT在不相似域上潜力更大。

image.png


3. TAPT


image.png

image.png

image.png

跨域DAPT+TAPT灾难性遗忘问题(说明了通用预训练模型的不足,DAPT和TAPT的必要性):

image.png

image.png

三阶段预训练:

image.png

image.png


4. TAPT训练集数据增强


  1. 用human-curated corpus中抽取的大量无标签数据
  2. 在没有human-curated corpus的任务下,检索无标签领域语料中的TAPT相关数据

image.png

VAMPIRE:轻量BOW语言模型

image.png

image.png

image.png


5. 参考文献


同一任务训练集和测试集分布的domain shift

其他细节略。

image.png


6. 代码复现


我觉得这个代码我复现不了……太金钱游戏了……

相关文章
JDBC基础入门与常用实例详解
JDBC基础入门与常用实例详解
246 0
Node中的AsyncLocalStorage 使用问题之nestjs-cls 库提供了什么功能
Node中的AsyncLocalStorage 使用问题之nestjs-cls 库提供了什么功能
157 3
巧用 Go Map 特性对数组或切片去重
本文介绍了如何利用 Go 的复合数据类型 Map 的特性对数组或切片进行去重。值得注意的一个地方是,在使用 Map 构建 Set 时,Value 的数据类型指定为 struct{},原因是后面在添加键值对的时候,指定的 Value 为空结构体 strcut{}{},空结构体不占用内存空间。
1033 1
巧用 Go Map 特性对数组或切片去重
【Swift 开发专栏】Swift 与 UIKit:构建 iOS 应用界面
【4月更文挑战第30天】本文探讨了Swift和UIKit在构建iOS应用界面的关键技术和实践方法。Swift的简洁语法、类型安全和高效编程模型,加上与UIKit的紧密集成,使开发者能便捷地创建用户界面。UIKit提供视图、控制器、布局、动画和事件处理等功能,支持灵活的界面设计。实践中,遵循设计原则,合理组织视图层次,运用布局和动画,以及实现响应式设计,能提升界面质量和用户体验。文章通过登录、列表和详情界面的实际案例展示了Swift与UIKit的结合应用。
486 1
禁用Cookie后Session还能用吗?
禁用Cookie后Session还能用吗?
135 1
下三角矩阵(Lower Triangular Matrix)
下三角矩阵(Lower Triangular Matrix)是一种特殊形式的矩阵,其非零元素仅位于主对角线以下。在数学和工程领域中,下三角矩阵通常用于线性代数和微积分等问题。以下是一些关于下三角矩阵的特点和应用:
1734 1
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问