Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

简介: Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks

1. Background & Motivation


image.png

image.png

本文想要证明:任务的textual domain仍然有效。

现存工作大多仅在一个领域、用多样性比预训练模型更弱的语料微调一次,而连续预训练的优势是否与可获得有标签任务数据、目标域和原始预训练语料域的相似性等元素有关,扔待探究。

image.png

本文主要研究RoBERTa在非预训练语料域上的分类任务表现在连续预训练之下的影响。


2. DAPT


image.png


2.1 数据集和实验

image.png

baseline:直接在每个分类任务上finetune

image.png

0d10da5d655344d9a2b06730b99e2c1c.png


2.2 分析域相似性

在海量的域测试集文本上一万个最常见的unigram(去掉停用词)

image.png

DAPT在不相似域上潜力更大。

image.png


3. TAPT


image.png

image.png

image.png

跨域DAPT+TAPT灾难性遗忘问题(说明了通用预训练模型的不足,DAPT和TAPT的必要性):

image.png

image.png

三阶段预训练:

image.png

image.png


4. TAPT训练集数据增强


  1. 用human-curated corpus中抽取的大量无标签数据
  2. 在没有human-curated corpus的任务下,检索无标签领域语料中的TAPT相关数据

image.png

VAMPIRE:轻量BOW语言模型

image.png

image.png

image.png


5. 参考文献


同一任务训练集和测试集分布的domain shift

其他细节略。

image.png


6. 代码复现


我觉得这个代码我复现不了……太金钱游戏了……

相关文章
|
SQL Java 数据库连接
JDBC基础入门与常用实例详解
JDBC基础入门与常用实例详解
376 0
|
2月前
|
人工智能 自然语言处理 搜索推荐
AI写作工具应用效能与治理策略研究报告
本报告聚焦AI写作工具在学术、商业、政务、创意四大场景的应用现状与适配逻辑,结合实测数据构建效率、质量、合规三维评估体系,剖析版权模糊、同质化等核心问题,提出法律、技术、行业协同治理路径,并预测认知智能、多模态创作等未来趋势,为产业健康发展提供参考。
|
机器学习/深度学习 弹性计算 TensorFlow
阿里云GPU加速:大模型训练与推理的全流程指南
随着深度学习和大规模模型的普及,GPU成为训练和推理的关键加速器。本文将详细介绍如何利用阿里云GPU产品完成大模型的训练与推理。我们将使用Elastic GPU、阿里云深度学习镜像、ECS(云服务器)等阿里云产品,通过代码示例和详细说明,带你一步步完成整个流程。
3721 0
|
4月前
|
XML Java 数据格式
Bean的生命周期:从Spring的子宫到坟墓
Spring 管理 Bean 的生命周期,从对象注册、实例化、属性注入、初始化、使用到销毁,全程可控。Bean 的创建基于配置或注解,Spring 在容器启动时扫描并生成 BeanDefinition,按需实例化并填充依赖。通过 Aware 回调、初始化方法、AOP 代理等机制,实现灵活扩展。了解 Bean 生命周期有助于更好地掌握 Spring 框架运行机制,提升开发效率与系统可维护性。
|
9月前
|
数据采集 监控 网络协议
​MCP协议深度解析:原理、应用与物联网时代的机遇-优雅草卓伊凡
​MCP协议深度解析:原理、应用与物联网时代的机遇-优雅草卓伊凡
1003 40
​MCP协议深度解析:原理、应用与物联网时代的机遇-优雅草卓伊凡
|
10月前
|
Java Spring
JDK动态代理和CGLIB动态代理的区别
Spring AOP中的动态代理主要有两种方式,JDK动态代理和CGLIB动态代理: ● JDK动态代理只提供接口的代理,不支持类的代理Proxy.newProxyInstance(类加载器, 代理对象实现的所有接口, 代理执行器) ● CGLIB是通过继承的方式做的动态代理 , 如果某个类被标记为final,那么它是无法使用 CGLIB做动态代理的。Enhancer.create(父类的字节码对象, 代理执行器)
|
机器学习/深度学习 人工智能 数据可视化
技术开源|语音情感基座模型emotion2vec
技术开源|语音情感基座模型emotion2vec
|
存储 JavaScript 安全
Node中的AsyncLocalStorage 使用问题之nestjs-cls 库提供了什么功能
Node中的AsyncLocalStorage 使用问题之nestjs-cls 库提供了什么功能
326 3