Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

简介: Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

1. Background & Motivation


image.png

image.png

本文想要证明:任务的textual domain仍然有效。

现存工作大多仅在一个领域、用多样性比预训练模型更弱的语料微调一次,而连续预训练的优势是否与可获得有标签任务数据、目标域和原始预训练语料域的相似性等元素有关,扔待探究。

image.png

本文主要研究RoBERTa在非预训练语料域上的分类任务表现在连续预训练之下的影响。


2. DAPT


image.png


2.1 数据集和实验

image.png

baseline:直接在每个分类任务上finetune

image.png

0d10da5d655344d9a2b06730b99e2c1c.png


2.2 分析域相似性

在海量的域测试集文本上一万个最常见的unigram(去掉停用词)

image.png

DAPT在不相似域上潜力更大。

image.png


3. TAPT


image.png

image.png

image.png

跨域DAPT+TAPT灾难性遗忘问题(说明了通用预训练模型的不足,DAPT和TAPT的必要性):

image.png

image.png

三阶段预训练:

image.png

image.png


4. TAPT训练集数据增强


  1. 用human-curated corpus中抽取的大量无标签数据
  2. 在没有human-curated corpus的任务下,检索无标签领域语料中的TAPT相关数据

image.png

VAMPIRE:轻量BOW语言模型

image.png

image.png

image.png


5. 参考文献


同一任务训练集和测试集分布的domain shift

其他细节略。

image.png


6. 代码复现


我觉得这个代码我复现不了……太金钱游戏了……

目录
打赏
0
0
0
0
20
分享
相关文章
Reading Notes: Human-Computer Interaction System: A Survey of Talking-Head Generation
由于人工智能的快速发展,虚拟人被广泛应用于各种行业,包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触,并在人机交互中增强用户体验。因此,我们设计了人机交互系统框架,包括语音识别、文本到语音、对话系统和虚拟人生成。接下来,我们通过虚拟人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时,我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势,强调了关键工作并总结了数据集。 对于有关于Talking-Head Generation的方法,这是一篇比较好的综述,我想着整理一下里面比较重要的部分,大概了解近几年对虚拟人工作的一些发展和
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency
Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency,大panel二代测序的一致性和重复性:对具有错配修复和校对缺陷的参考物质进行体细胞突变检测的多实验室评估
80 6
文献解读-Consistency and reproducibility of large panel next-generation sequencing: Multi-laboratory assessment of somatic mutation detection on reference materials with mismatch repair and proofreading deficiency
【博士每天一篇文献-算法】NICE Neurogenesis Inspired Contextual Encoding for Replay-free Class Incremental Learn
NICE(Neurogenesis Inspired Contextual Encoding)是一种新型深度神经网络架构,旨在通过模拟生物神经系统的成熟过程来解决类别增量学习中的灾难性遗忘问题,无需重放旧样本即可实现有效的增量学习。
99 5
【提示学习】AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts
Prompt任务需要构建合适的Pattern,但是编写合适的Pattern需要手动工作和人为猜测,有很大的不确定性。为了解决这个问题,提出AUTOPROMPT模型,基于梯度下降搜索来创建Pattern。
233 0
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
[SentencePiece]论文解读:SentencePiece: A simple and language independent subword tokenizer...
198 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
207 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
410 0
Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction论文解读
大多数现有的事件抽取(EE)方法只提取句子范围内的事件论元。然而,此类句子级事件抽取方法难以处理来自新兴应用程序(如金融、立法、卫生等)的大量文件
176 0
Document-Level event Extraction via human-like reading process 论文解读
文档级事件抽取(DEE)特别困难,因为它提出了两个挑战:论元分散和多事件。第一个挑战意味着一个事件记录的论元可能存在于文档中的不同句子中
152 0
DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled论文解读
我们提出了一个事件抽取框架,目的是从文档级财经新闻中抽取事件和事件提及。到目前为止,基于监督学习范式的方法在公共数据集中获得了最高的性能(如ACE 2005、KBP 2015)。这些方法严重依赖于人工标注的训练数据。
239 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等