带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(2) https://developer.aliyun.com/article/1243562?groupCode=taobaotech
为克服该问题,本文提出新的目标函数Angular Margin Contrastive Loss(ArcCon Loss),在正样本对之间增加额外的angular margin,表示如下:
在该loss函数中,决策边界为 (如图3右所示)。相较ArcFace[4],ArcCon不需要标注信息。相较NT-Xent,其鲁棒性更强,并且能进一步提升反映对比学习表征质量的两个指标alignment和uniformity [5]。其中alignment反映表征空间中正样本对的接近程度,uniformity反映表征向量在空间中分布的均匀程度,可分别计算如下:
模型训练过程中alignment和uniformity的变化如图4所示。
图4. alignment和uniformity在模型训练过程中的变化(值越小越好)
由图4可以看到,ArcCSE与采用NT-Xent的SimCSE均可提升alignment和uniformity,相较SimCSE,ArcCSE在alignment上的提升更为明显。
建模文本语义偏序关系
以往的研究工作仅考虑文本间pairwise语义关系,即文本或相似或不相似。但事实上文本语义存在不同的相似程度,比如s2跟s1可以比s3跟s1更相似,现有的方法缺乏建模这样的偏序关系的能力。
为了区分不同的语义相似程度,本文提出一种新的自监督任务,建模自动生成的triplet文本之间的蕴含关系。对于数据集中的每个文本si,先通过mask句中的一个连续片段得到图片(mask比率20%,消融实验确定),再增大mask区域得到图片(mask比率40%,消融实验确定),如下例所示:
带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(4) https://developer.aliyun.com/article/1243560?groupCode=taobaotech