阅读摘要
文章提出了一种简单确高效地构建verbalization的方法:
1. 对于每个标签,迭代所有的训练样本,的基础真值标签也为。使用模型来预测[MASK]标记的标记概率,并将这n个样本的预测概率的平均值取为 ,其中是在整个词汇表上的向量,表示对词汇表上的每个词的平均概率。
2. 对于每个,初始化一个空的候选令牌集。
3. 对于每个,其中V是模型的词汇表,我们从每个标签的中检索v的概率值。
4. 遍历所有的标签,每个标签都有一个z,遍历每个位置,将v赋给第m类的最可能令牌集。
假设有3个标签,词汇表有2000,那么Z的形状为3*2000,然后遍历词汇表[0-1999],每个词我们去比较它在3个标签上的概率,取最大的然后放入这个标签对应的中。
5. 对于,我们从中选取概率z^v_i最大的top-k个令牌,得到截断的词集。