Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

简介: Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

1. Background & Motivation


image.png

image.png

本文想要证明:任务的textual domain仍然有效。

现存工作大多仅在一个领域、用多样性比预训练模型更弱的语料微调一次,而连续预训练的优势是否与可获得有标签任务数据、目标域和原始预训练语料域的相似性等元素有关,扔待探究。

image.png

本文主要研究RoBERTa在非预训练语料域上的分类任务表现在连续预训练之下的影响。


2. DAPT


image.png


2.1 数据集和实验

image.png

baseline:直接在每个分类任务上finetune

image.png

0d10da5d655344d9a2b06730b99e2c1c.png


2.2 分析域相似性

在海量的域测试集文本上一万个最常见的unigram(去掉停用词)

image.png

DAPT在不相似域上潜力更大。

image.png


3. TAPT


image.png

image.png

image.png

跨域DAPT+TAPT灾难性遗忘问题(说明了通用预训练模型的不足,DAPT和TAPT的必要性):

image.png

image.png

三阶段预训练:

image.png

image.png


4. TAPT训练集数据增强


  1. 用human-curated corpus中抽取的大量无标签数据
  2. 在没有human-curated corpus的任务下,检索无标签领域语料中的TAPT相关数据

image.png

VAMPIRE:轻量BOW语言模型

image.png

image.png

image.png


5. 参考文献


同一任务训练集和测试集分布的domain shift

其他细节略。

image.png


6. 代码复现


我觉得这个代码我复现不了……太金钱游戏了……

目录
打赏
0
0
0
0
20
分享
相关文章
Reading Notes: Human-Computer Interaction System: A Survey of Talking-Head Generation
由于人工智能的快速发展,虚拟人被广泛应用于各种行业,包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触,并在人机交互中增强用户体验。因此,我们设计了人机交互系统框架,包括语音识别、文本到语音、对话系统和虚拟人生成。接下来,我们通过虚拟人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时,我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势,强调了关键工作并总结了数据集。 对于有关于Talking-Head Generation的方法,这是一篇比较好的综述,我想着整理一下里面比较重要的部分,大概了解近几年对虚拟人工作的一些发展和
【提示学习】AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts
Prompt任务需要构建合适的Pattern,但是编写合适的Pattern需要手动工作和人为猜测,有很大的不确定性。为了解决这个问题,提出AUTOPROMPT模型,基于梯度下降搜索来创建Pattern。
227 0
Document-Level event Extraction via human-like reading process 论文解读
文档级事件抽取(DEE)特别困难,因为它提出了两个挑战:论元分散和多事件。第一个挑战意味着一个事件记录的论元可能存在于文档中的不同句子中
144 0
DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled论文解读
我们提出了一个事件抽取框架,目的是从文档级财经新闻中抽取事件和事件提及。到目前为止,基于监督学习范式的方法在公共数据集中获得了最高的性能(如ACE 2005、KBP 2015)。这些方法严重依赖于人工标注的训练数据。
225 0
CLIP-Event: Connecting Text and Images with Event Structures 论文解读
视觉-语言(V+L)预训练模型通过理解图像和文本之间的对齐关系,在支持多媒体应用方面取得了巨大的成功。
209 0
RCEE: Event Extraction as Machine Reading Comprehension 论文解读
事件提取(Event extraction, EE)是一项重要的信息提取任务,旨在提取文本中的事件信息。以前的EE方法通常将其建模为分类任务,这些任务需要大量数据,并且存在数据稀缺问题。在本文中,我们提出了一种新的EE学习范式,将其明确地转换为机器阅读理解问题(MRC)。
320 0
TSAR: A Two-Stream AMR-enhanced Model for Document-level Event Argument Extraction论文解读
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
270 0
Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction论文解读
大多数现有的事件抽取(EE)方法只提取句子范围内的事件论元。然而,此类句子级事件抽取方法难以处理来自新兴应用程序(如金融、立法、卫生等)的大量文件
166 0
Reading the Manual: Event Extraction as Definition Comprehension, EMNLP 2020
Reading the Manual: Event Extraction as Definition Comprehension, EMNLP 2020
140 0
Reading the Manual: Event Extraction as Definition Comprehension, EMNLP 2020
《Data Pre-Processing in PythonHow I learned to love parallelized applies with Dask and Numba》电子版地址
Data Pre-Processing in Python:How I learned to love parallelized applies with Dask and Numba
93 0
《Data Pre-Processing in PythonHow I learned to love parallelized applies with Dask and Numba》电子版地址
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等