带你读《2022技术人的百宝黑皮书》——无尽流场景优化总结(3) https://developer.aliyun.com/article/1246800?groupCode=taobaotech
模型选择&样本构建
在模型选择中,考虑到目前无尽流场景样本量不多,无法训练太复杂的模型,经过评估后使用W&D进行训练【1】。对于样本构建,不同于点击率模型通过判断用户是否点击构造样本,无尽流下拉模型主要通过用户是否有继续下拉行为构建正负样本,并根据场景特点不断优化样本:
v1: 基于用户是否愿意继续下拉,将有继续下拉行为的样本认为是正样本,无继续下拉的样本认为是负样本;
v2: 基于“完全无下拉行为用户,用户意图不明确(干扰模型训练)”,剔除完全无下拉行为用户样本,剔除的无下拉用户行为样本占总样本量的24%;
v3: 基于“用户可能并不是因为最后一个浏览的内容跳失”,认为用户下拉序列中,后面浏览的内容都有可能是导致用户跳失,将最后10%下拉的内容都作为负样本;
模型离线AUC
线上AB
结论:从离线AUC看,v2版本效果最好,相比v1提高了将近0.01,v3版本效果不如v1;
从线上完整AB7天指标情况对比,v3版本下拉深度(人均曝光和次均曝光)提升较大,但其点击类指标收益负向;整体看v2版本表现最好,在下拉深度指标有提升情况下,点击类指标也有不错提升;因此,我们基于v2版本方式进行样本构建,并进行了其他优化;
带你读《2022技术人的百宝黑皮书》——无尽流场景优化总结(5) https://developer.aliyun.com/article/1246798?groupCode=taobaotech