带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用？探索解耦域适应无偏召回模型(7)-阿里云开发者社区

带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用？探索解耦域适应无偏召回模型(7)

2023-06-12 95

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用？探索解耦域适应无偏召回模型(7)

带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用？探索解耦域适应无偏召回模型(6) https://developer.aliyun.com/article/1246998?groupCode=taobaotech

线上实验

将原有的Base双塔替换为图片模型，线上指标如下表所示：

分析A/B结果可以发现，虽然无偏召回模型（仅利用无偏商品属性表示）可以使得集中度大幅度下降，且能提高长尾商品的曝光概率，但是在效率上几乎没有收益，这说明了盲目的去除流行度偏差会丢失掉流行度所带来的效率增益；而有偏的召回模型（仅利用有偏的流行度商品向量 )在效率和集中度上都有所改善，说明可以利用流行度信息同时满足用户的从众性和真实兴趣。

向量可视化

图4 商品向量的T-sne可视化，红点为热门商品，蓝点为长尾商品，黄点为热门商品解耦出的流行度表示，绿点为长尾商品解耦出的流行度表示。

从图4a可以发现，由于流行度偏差的存在，Base模型所提取的商品向量表示存在着分布差异，这会导致过拟合于热门商品的模型难以精准评估长尾商品的好坏；从图4b可以看出，提取的无偏属性向量和解耦流行度向量符合预期，即属性向量不存在分布差异，而流行度向量具有区分度，且和属性向量有着明显的分界线。

图5 每种颜色代表一个类目

为了验证的有效性，我们对进行了消融研究并进行了向量可视化，可以发现基于实例对齐的可以促使同一个类目的商品向量聚类的更紧凑。

带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用？探索解耦域适应无偏召回模型(8) https://developer.aliyun.com/article/1246995?groupCode=taobaotech

带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用？探索解耦域适应无偏召回模型(7)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用？ 探索解耦域适应无偏召回模型(7)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用？探索解耦域适应无偏召回模型(7)