作者:钰皓
出品:大淘宝技术
学习高质量文本表示是NLP的基础任务之一,可应用于大量的下游任务。尽管像BERT之类的预训练语言模型获得了巨大成功的,但在文本语义相似任务中,直接用其获取的文本表征往往效果欠佳。最近一些基于对比学习的文本表示建模方法取得了不错的效果,但这些方法更多关注于正负表征对的构建,对训练目标优化不足。如先前工作普遍采用的NT-Xent loss,判别能力不足且无法建模文本间的语义偏序关系。因此,本文提出一种新的自监督文本表示算法ArcCSE,通过设计新的对比学习目标并建模文本间语义偏序关系,增强模型对样本语义的区分能力。实验表明,该方法在STS和SentEval多个文本语义相关性及下游迁移任务上超过此前的自监督文本表示模型。相关文章“A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space”已被ACL 2022录用。
基于BERT[1]等预训练语言模型获取文本表征向量时,若不经finetune直接采用[CLS] embedding或输出层embedding的均值作为表征,常常无法得到较好的效果,有时效果甚至不如非结合上下文语境的embedding方法如GloVe。有鉴于此,近期一些自监督文本表征算法陆续提出,这些方法往往侧重于采用不同的文本数据增强方法或不同的模型结构来获取文本表征正样本对,并通过对比学习方法来对模型进行优化。已有工作对训练目标本身探索较少,因此本文从对比学习损失函数构建和文本间语义偏序关系建模角度出发,提出了一种新的自监督文本表示算法,相较已有算法表现出更好的语义判别力,如图1。
图1. 文本表示向量可视化, 将三个相关文本分别经过BERT、SimCSE和ArcCSE多次获取多个表示向量,再用t-SNE降维进行可视化
方法
ArcCSE算法框架主要包含pairwise文本关系建模和triple-wise文本关系建模,算法框架如下图所示。
图2. ArcCSE算法框架
带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(2) https://developer.aliyun.com/article/1243562?groupCode=taobaotech