带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(6) https://developer.aliyun.com/article/1246998?groupCode=taobaotech
线上实验
将原有的Base双塔替换为图片模型,线上指标如下表所示:
分析A/B结果可以发现,虽然无偏召回模型(仅利用无偏商品属性表示 )可以使得集中度大幅度下降,且能提高长尾商品的曝光概率,但是在效率上几乎没有收益,这说明了盲目的去除流行度偏差会丢失掉流行度所带来的效率增益;而有偏的召回模型(仅利用有偏的流行度商品向量 )在效率和集中度上都有所改善,说明 可以利用流行度信息同时满足用户的从众性和真实兴趣。
向量可视化
图4 商品向量的T-sne可视化,红点为热门商品,蓝点为长尾商品,黄点为热门商品解耦出的流行度表示,绿点为长尾商品解耦出的流行度表示。
从图4a可以发现,由于流行度偏差的存在,Base模型所提取的商品向量表示存在着分布差异,这会导致过拟合于热门商品的模型难以精准评估长尾商品的好坏;从图4b可以看出, 提取的无偏属性向量和解耦流行度向量符合预期,即属性向量不存在分布差异,而流行度向量具有区分度,且和属性向量有着明显的分界线。
图5 每种颜色代表一个类目
为了验证 的有效性,我们对 进行了消融研究并进行了向量可视化,可以发现基于实例对齐的 可以促使同一个类目的商品向量聚类的更紧凑。
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(8) https://developer.aliyun.com/article/1246995?groupCode=taobaotech