然而,仅仅根据 x 和 y 坐标的差值得出的位置编码并不具备尺度不变性和旋转不变性。这在基于栅格的局部注意力模型中不是问题,因为邻域的大小永远相同。然而,基于点云的邻域可能在不同位置和不同图像中尺度不同。此时,模型将无法泛化到大小不同的同一个物体,或者经过旋转的同一个物体。因此,作者们将相对位置信息扩展到包括两个 token 之间的距离,cosine 和 sine 值:
注意,距离有旋转不变性,而 cosine 和 sine 值有尺度不变性。因此,深度模型能通过这种位置编码,自由地学习选择它需要使用的信息,从而取得更大灵活性。