带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(1)-阿里云开发者社区

带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(1)

2023-06-07 115

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(1)

作者：钰皓

出品：大淘宝技术

学习高质量文本表示是NLP的基础任务之一，可应用于大量的下游任务。尽管像BERT之类的预训练语言模型获得了巨大成功的，但在文本语义相似任务中，直接用其获取的文本表征往往效果欠佳。最近一些基于对比学习的文本表示建模方法取得了不错的效果，但这些方法更多关注于正负表征对的构建，对训练目标优化不足。如先前工作普遍采用的NT-Xent loss，判别能力不足且无法建模文本间的语义偏序关系。因此，本文提出一种新的自监督文本表示算法ArcCSE，通过设计新的对比学习目标并建模文本间语义偏序关系，增强模型对样本语义的区分能力。实验表明，该方法在STS和SentEval多个文本语义相关性及下游迁移任务上超过此前的自监督文本表示模型。相关文章“A Contrastive Framework for Learning Sentence Representations from Pairwise and Triple-wise Perspective in Angular Space”已被ACL 2022录用。

基于BERT[1]等预训练语言模型获取文本表征向量时，若不经finetune直接采用[CLS] embedding或输出层embedding的均值作为表征，常常无法得到较好的效果，有时效果甚至不如非结合上下文语境的embedding方法如GloVe。有鉴于此，近期一些自监督文本表征算法陆续提出，这些方法往往侧重于采用不同的文本数据增强方法或不同的模型结构来获取文本表征正样本对，并通过对比学习方法来对模型进行优化。已有工作对训练目标本身探索较少，因此本文从对比学习损失函数构建和文本间语义偏序关系建模角度出发，提出了一种新的自监督文本表示算法，相较已有算法表现出更好的语义判别力，如图1。

图1. 文本表示向量可视化, 将三个相关文本分别经过BERT、SimCSE和ArcCSE多次获取多个表示向量，再用t-SNE降维进行可视化

方法

ArcCSE算法框架主要包含pairwise文本关系建模和triple-wise文本关系建模，算法框架如下图所示。

图2. ArcCSE算法框架

带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(2) https://developer.aliyun.com/article/1243562?groupCode=taobaotech

带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(1)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(1)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景