带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(4)

简介: 带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(4)

带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(3) https://developer.aliyun.com/article/1247001?groupCode=taobaotech



正则化缓解长尾分布差异


域对齐 虽然FDM已经提取了解耦出流行度表示的商品属性表示,但是由于长尾的数据稀疏性,我们认为流行度偏差仍然存在。相比于训练充足的热门商品,长尾商品并不能获得足够的学习。借鉴域适应的思想,我们额外引入了埋

点中的未曝光商品(大部分是长尾商品),采用常见的最大均值差异(MMD),来实现长尾和热门商品的分布对齐。


image.png


其中,image.png 表示核函数,image.png 表示希尔伯特空间。需要注意的地方有两点,一个该损失的目标样本商品属性表示 image.png是停止梯度的,防止对齐任务对主任务造成影响;另一个是为了保证分布对齐不会产生负迁移,会额外对未曝光样

本引入基于精排分的知识蒸馏。直观来讲,该损失函数促使热门商品属性向量中心与长尾商品属性向量中心相互靠近,从而实现分布对齐。


实例对齐 由于日志中长尾偏移的存在,所学习到的商品向量空间并不能很好的反映商品间的隐藏相似性关系。例如,在商品空间中,一个热门商品可能远离与它同类目的长尾商品,却与不同类目的热门商品靠近。我们认为有效共现次数越多的商品对应该有更相似的商品向量表示。为了让模型捕获这种结构化信息,我们在商品塔额外引入了用户点击行为序列。基于对比学习,约束同一个用户点击的商品向量表示将会更接近。具体的, image.png当作正样本,batch内的其他目标商品当作负样本image.png ,因此,商品相似度损失可以被定义为:


image.png


其中, image.pngimage.png 为温度系数,image.png 表示当前用户的行为序列, image.png表示对应商品的曝光频率。



带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(5) https://developer.aliyun.com/article/1246999?groupCode=taobaotech

目录
打赏
0
0
0
0
52
分享
相关文章
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
125 5
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(5)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(5)
111 0
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(3)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(3)
124 0
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(8)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(8)
127 0
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(7)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(7)
105 0
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(2)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(2)
161 0
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(6)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(6)
106 0
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(1)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(1)
203 0
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5)
169 0
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
310 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等