大家好,我是对白。
今天给大家介绍一个NLP领域文本匹配新SOTA:S-SimCSE。
Dropout rate 采样
本文不是使用固定的dropout rate,而是从一个预定义的分布抽样dropout rate。首先从一个预先定义的分布(如均匀分布)中抽取两个dropout rate r1和r2。然后,按照SimCSE,将输入语句两次输入网络,其中dropout rate分别为r1和r2。本质更像是超参数搜索的随机搜索,可以将dropout rate限制到一个区间如[0,0.3]采样,或者干脆[0.05,0.1,0.015,0.20…]网格搜索。本文的新意在于采用不同的dropout rate。
句子掩码策略
dropout只在全连接层之前使用。具体地说,让表示第l层(全连接层)的第i个句子的输出向量。
是第l层的权重和偏差。标准全连接层的前馈操作可以表示为:
对于小批处理中的每个句子,我们使用从分布τ中采样的dropout rate采样一个新掩码。这样可以在一次前向传播过程中得到不同的子网络。
实验结果
作者并未做很详细的实验对比
参考文献
S-SimCSE:Sampling Sub-networks for Contrastive Learning of Sentence Embedding