谷歌提出多语言BERT模型：可为109种语言生成与语言无关的跨语言句子嵌入-阿里云开发者社区

谷歌提出多语言BERT模型：可为109种语言生成与语言无关的跨语言句子嵌入

2022-01-09 402

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 谷歌研究人员提出了一种LaBSE的多语言BERT嵌入模型。该模型可为109种语言生成与语言无关的跨语言句子嵌入，同时在跨语言文本检索性能优于LASER。

微信图片_20220109154752.jpg

近日，谷歌AI研究人员提出了一种称为LaBSE的多语言BERT嵌入模型，该模型可为109种语言生成与语言无关的跨语言句子嵌入。

这一论文题目为「Language-agnostic BERT Sentence Embedding」，目前已在arxiv上发表。

微信图片_20220109154754.png

论文地址：https://arxiv.org/pdf/2007.01852.pdf

研究背景

多语言嵌入模型是一种功能强大的工具，可将不同语言的文本编码到共享的嵌入空间中，从而使其能够应用在一系列下游任务，比如文本分类、文本聚类等，同时它还利用语义信息来理解语言。

用于生成此类嵌入的现有方法如LASER或m~USE依赖并行数据，将句子从一种语言直接映射到另一种语言，鼓励句子嵌入之间的一致性。尽管这些现有的多语言嵌入方法可在多种语言中有良好的整体性能，但与专用双语模型相比，它们在高资源语言上通常表现不佳。

此外，由于有限的模型容量、低资源语言的训练数据质量通常较差，可能难以扩展多语言模型以支持更多语言，同时保持良好的性能。

微信图片_20220109154756.png

多语言嵌入空间的示例

改善语言模型的最新研究包括开发掩码语言模型（MLM）预训练，如BERT，ALBER和RoBERTa使用的预训练。由于这种方法仅需要一种语言的文字，因此在多种语言和各种自然语言处理任务中均取得了非凡的成就。

另外，MLM预训练已经扩展到多种语言，通过将MLM预训练修改为包括级联翻译对，也称作翻译语言模型（TLM），或者仅引入来自多种语言的预训练数据。

但是，尽管在进行MLM和TLM训练时学习到的内部模型表示形式对下游任务进行微调很有帮助，但它们不能直接产生句子嵌入，而这对于翻译任务至关重要。在这样情况下，研究人员提出了一种称为LaBSE的多语言BERT嵌入模型。该模型使用MLM和TLM预训练在170亿个单语句子和60亿个双语句子对上进行了训练，即使在训练期间没有可用数据的低资源语言上也有效。此外，该模型在多个并行文本检索任务上有表现出良好的性能。

微信图片_20220109154758.png

收集109种支持语言的训练数据

LaBSE模型可在单个模型中提供了对109种语言的扩展支持在先前的工作中，研究者曾建议使用翻译排名任务来学习多语言句子嵌入空间。该方法通过给定源语言中的句子，对模型进行排序，从而对目标语言中的句子的正确翻译进行排名。翻译排名任务通过使用带有共享变压器的双编码器体系结构进行训练的，让双语模型在多项并行文本检索任务表现出最先进的性能。但是，由于模型能力、词汇量覆盖范围、训练数据质量等方面的限制，将双语模型扩展为支持多种语言（在研究者的测试案例中为16种语言）时，模型表现并不优。

微信图片_20220109154800.gif

翻译排名任务

对于LaBSE，研究人员在类似BERT的体系结构上利用了语言模型预训练的最新成果，包括MLM和TLM，并在翻译排名任务上进行了微调。使用MLM和TLM在109种语言上预先训练的500k令牌词汇表的12层转换器，用于增加模型和词汇表覆盖范围。最终，LaBSE模型在单个模型中提供了对109种语言的扩展支持。

微信图片_20220109154802.png

双编码器体系结构

LaBSE模型在跨语言文本检索的性能优于LASER

研究者使用Tatoeba语料库评估提出的模型，Tatoeba语料库是一个数据集，包含多达112个语言的1000个英语对齐的句子对。对于数据集中30种以上的语言，该模型没有训练数据。

该模型的任务是查找给定句子的最近相邻的翻译，并使用余弦距离进行计算。为了了解训练数据分布的开头或结尾处的语言模型的性能，研究人员将语言集分为几组，并计算每组语言的平均准确性。下表列出了与每种语言组的m〜USE、LASER以及LaBSE模型实现的平均准确性对比结果。

微信图片_20220109154804.png

可以看出，所有模型在涵盖大多数主要语言的14语言组中均表现出色。当涵盖的语言增多，LASER和LaBSE的平均准确度都会下降。但是，随着语言数量的增加，LaBSE模型的准确性降低的要小得多，明显优于LASER，尤其是当包括112种语言的全部分发时，LaBSE准确性为83.7％，LASER为65.5％。

此外，LaBSE还可用于从Web规模数据中挖掘并行文本。谷歌研究人员已经通过tfhub向社区发布了预先训练的模型，其中包括可以按原样使用或可以使用特定于域的数据进行微调的模块。链接：https://tfhub.dev/google/LaBSE/1

参考链接：

https://ai.googleblog.com/

谷歌提出多语言BERT模型：可为109种语言生成与语言无关的跨语言句子嵌入

研究背景

LaBSE模型在跨语言文本检索的性能优于LASER

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

谷歌提出多语言BERT模型：可为109种语言生成与语言无关的跨语言句子嵌入

研究背景

LaBSE模型在跨语言文本检索的性能优于LASER

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景