带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(4) https://developer.aliyun.com/article/1246884?groupCode=taobaotech
样本构造
在样本构造上,我们采取两种方案:
方案一:设定曝光PV和点击率阈值,高于阈值的为正样本,否则为负样本;
方案二:首先,根据内容曝光PV对点击率进行校正。其次,将空间x风格维度下,内容发布7天后累计点击率高于维度内平均点击率的内容为正样本,其余为负样本。
方案一在正样本的选择上更为严格,能够确保是热门的内容。方案二考虑了不同空间和风格内容下内容点击率的差异,但是可能会将维度内热门但全局非热门内容的设置为正样本。
模型结构
在Wide & Deep模型基础之上设计潜力预估模型,具体改动有两处:
1.内容封面图向量与Sparse feature的embedding进行concat,共同作为deep侧输入;
2.训练时,根据曝光PV的大小,给样本赋值不同的置信度,PV值越大,样本越置信。
离线评估
下表展示了基于上述两种方案训练的模型进行潜力预估,P(is_hot)位于top10%的内容在发布7天后在冷启结束后的自然推荐获得曝光PV的分布。
第一行的0-5是内容曝光PV的范围划定:数值越大,对应的曝光PV越高。从占比上看,方案二在潜力内容挖掘上准确性更高。
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(6) https://developer.aliyun.com/article/1246882?groupCode=taobaotech