复现的代码没看到。
Records
正常在TransformerQ中,都是通过线性变化来得到qk v的。
下图中的1x1,是因为作者没有用全连接,用的是1x1的卷积,这样做也是可以的。
相对位置编码。倘若共有64号,在1号看来,有64个相对编码,2号看来也是有64个相对位置编码。
在—开始的时候,是通过随机初始化的方式,往后就是会更新的,相对位置编码是可学习的参数。
符号的意思是矩阵乘法。
复现的代码没看到。
正常在TransformerQ中,都是通过线性变化来得到qk v的。
下图中的1x1,是因为作者没有用全连接,用的是1x1的卷积,这样做也是可以的。
相对位置编码。倘若共有64号,在1号看来,有64个相对编码,2号看来也是有64个相对位置编码。
在—开始的时候,是通过随机初始化的方式,往后就是会更新的,相对位置编码是可学习的参数。
符号的意思是矩阵乘法。