Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

简介: Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

1. Background & Motivation


image.png

image.png

本文想要证明:任务的textual domain仍然有效。

现存工作大多仅在一个领域、用多样性比预训练模型更弱的语料微调一次,而连续预训练的优势是否与可获得有标签任务数据、目标域和原始预训练语料域的相似性等元素有关,扔待探究。

image.png

本文主要研究RoBERTa在非预训练语料域上的分类任务表现在连续预训练之下的影响。


2. DAPT


image.png


2.1 数据集和实验

image.png

baseline:直接在每个分类任务上finetune

image.png

0d10da5d655344d9a2b06730b99e2c1c.png


2.2 分析域相似性

在海量的域测试集文本上一万个最常见的unigram(去掉停用词)

image.png

DAPT在不相似域上潜力更大。

image.png


3. TAPT


image.png

image.png

image.png

跨域DAPT+TAPT灾难性遗忘问题(说明了通用预训练模型的不足,DAPT和TAPT的必要性):

image.png

image.png

三阶段预训练:

image.png

image.png


4. TAPT训练集数据增强


  1. 用human-curated corpus中抽取的大量无标签数据
  2. 在没有human-curated corpus的任务下,检索无标签领域语料中的TAPT相关数据

image.png

VAMPIRE:轻量BOW语言模型

image.png

image.png

image.png


5. 参考文献


同一任务训练集和测试集分布的domain shift

其他细节略。

image.png


6. 代码复现


我觉得这个代码我复现不了……太金钱游戏了……

相关文章
|
机器学习/深度学习 编解码 人工智能
Reading Notes: Human-Computer Interaction System: A Survey of Talking-Head Generation
由于人工智能的快速发展,虚拟人被广泛应用于各种行业,包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触,并在人机交互中增强用户体验。因此,我们设计了人机交互系统框架,包括语音识别、文本到语音、对话系统和虚拟人生成。接下来,我们通过虚拟人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时,我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势,强调了关键工作并总结了数据集。 对于有关于Talking-Head Generation的方法,这是一篇比较好的综述,我想着整理一下里面比较重要的部分,大概了解近几年对虚拟人工作的一些发展和
|
3月前
|
机器学习/深度学习 算法 物联网
【博士每天一篇论文-算法】Overview of Echo State Networks using Different Reservoirs and Activation Functions
本文研究了在物联网网络中应用回声状态网络(ESN)进行交通预测的不同拓扑结构,通过与SARIMA、CNN和LSTM等传统算法的比较,发现特定配置的ESN在数据速率和数据包速率预测方面表现更佳,证明了ESN在网络流量预测中的有效性。
32 4
|
存储 自然语言处理 数据可视化
【提示学习】AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts
Prompt任务需要构建合适的Pattern,但是编写合适的Pattern需要手动工作和人为猜测,有很大的不确定性。为了解决这个问题,提出AUTOPROMPT模型,基于梯度下降搜索来创建Pattern。
154 0
|
数据挖掘
【提示学习】Prompt Tuning for Multi-Label Text Classification: How to Link Exercises to Knowledge Concept
文章这里使用的是BCEWithLogitsLoss,它适用于多标签分类。即:把[MASK]位置预测到的词表的值进行sigmoid,取指定阈值以上的标签,然后算损失。
|
机器学习/深度学习 存储 数据采集
DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled论文解读
我们提出了一个事件抽取框架,目的是从文档级财经新闻中抽取事件和事件提及。到目前为止,基于监督学习范式的方法在公共数据集中获得了最高的性能(如ACE 2005、KBP 2015)。这些方法严重依赖于人工标注的训练数据。
130 0
|
存储 移动开发 自然语言处理
Document-Level event Extraction via human-like reading process 论文解读
文档级事件抽取(DEE)特别困难,因为它提出了两个挑战:论元分散和多事件。第一个挑战意味着一个事件记录的论元可能存在于文档中的不同句子中
94 0
|
机器学习/深度学习 自然语言处理 算法
RCEE: Event Extraction as Machine Reading Comprehension 论文解读
事件提取(Event extraction, EE)是一项重要的信息提取任务,旨在提取文本中的事件信息。以前的EE方法通常将其建模为分类任务,这些任务需要大量数据,并且存在数据稀缺问题。在本文中,我们提出了一种新的EE学习范式,将其明确地转换为机器阅读理解问题(MRC)。
224 0
|
机器学习/深度学习 数据采集 存储
Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction论文解读
大多数现有的事件抽取(EE)方法只提取句子范围内的事件论元。然而,此类句子级事件抽取方法难以处理来自新兴应用程序(如金融、立法、卫生等)的大量文件
99 0
|
数据挖掘
Re19:读论文 Paragraph-level Rationale Extraction through Regularization: A case study on European Court
Re19:读论文 Paragraph-level Rationale Extraction through Regularization: A case study on European Court
Re19:读论文 Paragraph-level Rationale Extraction through Regularization: A case study on European Court
|
机器学习/深度学习 算法
Re9:读论文 DEAL Inductive Link Prediction for Nodes Having Only Attribute Information
Re9:读论文 DEAL Inductive Link Prediction for Nodes Having Only Attribute Information
Re9:读论文 DEAL Inductive Link Prediction for Nodes Having Only Attribute Information