比seq2seq模型快90倍!Google推出全新文本编辑模型FELIX

简介: 以前的文本编辑方法要么是快速但不灵活,要么是灵活但是速度很慢。近日,谷歌AI团队新作带来了全新模型FELIX,这是一个快速灵活的文本编辑系统,与seq2seq方法相比,速度提高了90倍。

序列到序列(seq2seq)模型已经成为处理自然语言生成任务的有效方法,其应用范围从机器翻译到单语言生成任务,如摘要、句子融合、文本简化和机器翻译的译后编辑。

 

然而,对许多单语任务来说,这些模型是一个次优选择,因为所需的输出文本往往代表一个输入文本的轻微重写。在完成这些任务时,seq2seq模型速度较慢,因为它们一次生成一个输出单词(即自回归) ,而且浪费,因为大多数输入标记只是复制到输出中。

 

相反,文本编辑模型最近引起了极大的关注,因为它们提出预测编辑操作——如单词删除、插入或替换——这些操作应用于输入以重构输出。

 

以前的文本编辑方法存在局限性,要么是快速的(非自回归的) ,但是不灵活,因为它们使用的编辑操作数量有限; 要么是灵活的,支持所有可能的编辑操作,但是速度很慢(自回归的)。

 

在这两种情况下,它们都没有集中精力建立大型的结构(语法)转换模型,例如从主动语态切换到被动语态,从「They ate steak for dinner」(他们晚餐吃牛排)切换到「Steak was eaten for dinner」(晚餐吃牛排),相反,它们专注于局部变换,删除或替换短语。

 

当需要进行大型结构转换时,这些文本编辑模型要么不能生成该转换,要么会插入大量新的文本,但是这样会很慢。

 

在最新的论文《FELIX: 通过标签和插入进行灵活的文本编辑》(FELIX: Flexible Text Editing Through Tagging and Insertion),Google团队带来了FELIX,这是一个快速而灵活的文本编辑系统,它模拟了大的结构变化,与seq2seq方法相比,速度提高了90倍,同时在四种单语言编辑任务中的表现非常出色。

10.jpg


与传统的seq2seq方法相比,FELIX 有以下三个关键优势:

 

样本效率: 训练一个高精度的文本生成模型通常需要大量高质量的监督数据。FELIX 使用三种技术将所需的数据量最小化: (1)微调预训练检查点,(2)学习少量编辑操作的标记模型,(3)非常类似于预训练任务的文本插入任务

 

快速推理时间:FELIX 是完全非自回归的,避免了自回归解码器造成的慢推理时间

 

灵活的文本编辑: FELIX 在学习编辑操作的复杂性和它建模的转换的灵活性之间达到了平衡

 

简言之,FELIX旨在从自监督的预训练中获得最大利益,在资源少、训练数据少的情况下实现高效训练。

 

概述

 

为了实现上述目标,FELIX将文本编辑任务分解为两个子任务: 打标签以确定输入单词的子集及其在输出文本中的顺序,以及插入输入文本中不存在的单词。

 

标注模型采用了一种新颖的指针机制,支持结构转换,而插入模型则基于MLM(Masked Language Model)。这两个模型都是非自回归的,保证了模型的快速性。下面是 FELIX 的图表。

 

11.gif


一个用于文本简化任务的FELIX数据训练示例。输入词首先标记为 KEEP (K)、 DELETE (D)或 KEEP 和 INSERT (I)。标记之后,输入被重新排序。然后将这个重新排序的输入反馈给一个MLM 


标记模型

 

FELIX的第一步是标记模型,它由两个组件组成。

 

首先,标记器确定哪些词应该保留或删除,哪些地方应该插入新词。当标记器预测插入时,将向输出中添加一个特殊的MASK标记。

 

在标记之后,有一个重新排序的步骤,其中指针对输入进行重新排序以形成输出,通过这个步骤,它能够重复使用输入的部分内容,而不是插入新的文本。重新排序步骤支持任意重写,从而支持对大型更改建模。

 

对指针网络进行训练,使得输入中的每个单词指向下一个单词,因为它将出现在输出中,如下所示。

 

12.gif

从「There are 3 layers in the walls of the heart」转化为「the heart MASK 3 layers」实现了指向机制

 

插入模型

 

标记模型的输出是重新排序的输入文本,其中包含插入标签预测的已删除的单词和MASK标记。

 

标记模型的输出是重新排序的输入文本,其中包含插入标签预测的已删除的单词和MASK标记。插入模型必须预测MASK标记的内容。因为FELIX的插入模型与BERT的预训练目标非常相似,所以它可以直接利用训练前的优势,这在数据有限的情况下尤其有优势。

 


13.jpg

插入模型的示例,其中标记器预测将插入两个单词,插入模型预测MASK标记的内容

 

结果

 

本文对FELIX在句子融合,文本简化,抽象摘要和机器翻译的译后编辑方面进行了评估。这些任务所需的编辑类型和操作所依据的数据集大小有着很大的差异。

 

在一定的数据集大小范围内,将FELIX与大型预训练的seq2seq模型(BERT2BERT)和文本编辑模型(LaserTager)进行比较,从而得到关于句子融合任务(即将两个句子合并为一个)的结果。

 

可以看出FELIX的性能要优于LaserTagger,并且仅需几百个样本就可以进行训练。对于完整的数据集,自回归BERT2BERT的性能要优于FELIX但是,在推理过程中,此模型花费的时间明显更长。

 


14.jpg

FELIX(使用性能最佳的模型),BERT2BERT和LaserTagger在使用不同大小的DiscoFuse训练数据集时的参考语句完全匹配百分比的比较


image.jpeg


  Nvidia Tesla P100上batch为32的延迟(以毫秒为单位)。

 

结论

 

FELIX是完全非自回归的,在实现了顶尖水准的结果的同时提供了更快的推理时间。

 

FELIX还通过三种技术将所需的训练数据量降至最低:微调预训练的检查点,学习少量的编辑操作以及从预训练中模仿MLM任务的插入任务。

 

最后,FELIX在学习的编辑操作的复杂性和可处理的输入输出转换的百分比之间取得了平衡。

相关文章
|
11月前
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
313 4
|
11月前
|
定位技术 TensorFlow API
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
235 0
|
11月前
|
编解码 数据可视化 定位技术
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
Google Earth Engine(GEE)——NOAA海平面上升数字高程模型(DEMs)
178 1
|
11月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
361 0
|
1月前
|
人工智能 边缘计算 自然语言处理
Google 发布其开源模型系列最新模型 Gemma 3
Google 发布了其开源模型系列的最新成员 Gemma 3,这是一款轻量级、高性能的 AI 模型,支持多语言和复杂任务。它具备 140+ 语言支持、128K-token 上下文窗口、增强的多模态分析能力以及函数调用功能,适用于聊天 AI、代码生成等多种场景。Gemma 3 在性能上超越 Llama 3-8B 和 Mistral 7B,且仅需单 GPU 即可运行,大幅降低计算成本。提供 1B 至 27B 不同参数规模版本,满足多样化需求,并优化了量化模型以适应边缘计算和移动设备。其多模态设计整合了 SigLIP 图像编码器,扩展上下文窗口至 128k token,显著提升了视觉和文本理解能力。
124 3
Google 发布其开源模型系列最新模型 Gemma 3
|
11月前
|
运维 监控 Serverless
一键开启 GPU 闲置模式,基于函数计算低成本部署 Google Gemma 模型服务
本文介绍如何使用函数计算 GPU 实例闲置模式低成本、快速的部署 Google Gemma 模型服务。
165092 58
|
10月前
|
人工智能 自然语言处理 机器人
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
探索谷歌最新的生成媒体模型:用于高分辨率视频生成的 Veo 和用于卓越文本生成图像能力的 Imagen 3。还可以了解使用 Music AI Sandbox 创作的新演示录音。
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
【2月更文挑战第15天】再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
313 1
再超Transformer!Google提出两个新模型(Griffin、Hawk),强于Mamba,更省资源
|
11月前
|
编解码 人工智能 算法
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
Google Earth Engine(GEE)——高度可扩展的时间自适应反射率融合模型(HISTARFM)数据库
159 0
|
11月前
|
编解码
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
Google Earth Engine(GEE)——加拿大高分辨率数字高程模型(HRDEM)
94 0

热门文章

最新文章

下一篇
oss创建bucket