带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(5)-阿里云开发者社区

带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(5)

2023-06-12 358

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(5)

带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(4) https://developer.aliyun.com/article/1246884?groupCode=taobaotech

样本构造

在样本构造上，我们采取两种方案：

方案一：设定曝光PV和点击率阈值，高于阈值的为正样本，否则为负样本；

方案二：首先，根据内容曝光PV对点击率进行校正。其次，将空间x风格维度下，内容发布7天后累计点击率高于维度内平均点击率的内容为正样本，其余为负样本。

方案一在正样本的选择上更为严格，能够确保是热门的内容。方案二考虑了不同空间和风格内容下内容点击率的差异，但是可能会将维度内热门但全局非热门内容的设置为正样本。

模型结构

在Wide & Deep模型基础之上设计潜力预估模型，具体改动有两处：

1.内容封面图向量与Sparse feature的embedding进行concat，共同作为deep侧输入；

2.训练时，根据曝光PV的大小，给样本赋值不同的置信度，PV值越大，样本越置信。

离线评估

下表展示了基于上述两种方案训练的模型进行潜力预估，P(is_hot)位于top10%的内容在发布7天后在冷启结束后的自然推荐获得曝光PV的分布。

第一行的0-5是内容曝光PV的范围划定：数值越大，对应的曝光PV越高。从占比上看，方案二在潜力内容挖掘上准确性更高。

带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(6) https://developer.aliyun.com/article/1246882?groupCode=taobaotech

带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(5)