信息流短视频时长多目标优化

简介: 背景       信息流短视频排序目前使用的是基于CTR预估Wide&Deep排序模型。在此基础上继续一系列优化,通过引入相关性信号、体感信号、多场景的样本融合、高层排序模型取得了不错收益。       信息流短视频模型优化可分为两部分优化: 感知相关性优化——点击模型以优化(CTR/CLICK为

背景

      信息流短视频排序目前使用的是基于CTR预估Wide&Deep排序模型。在此基础上继续一系列优化,通过引入相关性信号、体感信号、多场景的样本融合、高层排序模型取得了不错收益。

      信息流短视频模型优化可分为两部分优化:

  • 感知相关性优化——点击模型以优化(CTR/CLICK为目标)
  • 真实相关性优化——时长多目标优化(停留时长RDTM/播放完成率PCR

      上述收益均基于点击模型的优化,模型能够很好地捕抓USER-ITEM之间感知相关性,感知权重占比较高,弱化真实相关性,这样可能导致用户兴趣收窄,长尾问题加剧;此外,停留时长,无论是信息流、竞品均作为重要优化目标,Youtube基于时长策略权重占比50%以上。在此前提下,我们排序模型迫切需要引入时长多目标优化,提升推荐的真实相关性,寻求在时长上取得突破。

                              

       时长多目标的引入,排序模型不仅单纯地优化点击目标,同时也要兼顾时长目标,使得排序模型的感知相关性与真实相关性均得到较好的体现;目前业界点击+时长优化有多种方式包括:多目标优化(点击+时长)、联合建模(参考阿里联合预估算法JUMP)等。

       这里我们通过样本rewight方式,相当于点击label不变情况下,时长作为较强的bias去影响时长目标,保证感知相关性前提,去优化真实相关性。目前我们正在调研更加自适应的时长建模方式括(point-wise、list-wise),后续为进一步介绍。上述是时长多目标优化简要介绍,而样本reweight优化取得不错的收益,下面简单介绍下。

RDTM REWEIGHTING

        模型时长多目标样本加权方式,是我们参照weighted logistic regression方法,结合RecSys2016上Youtube提出的时长建模,在模型训练是通过停留时长去对正样本加权,负样本不加权,从而去影响正负样本的权重分布,使得停留时长越长的样本,在时长目标下得到充分训练。

        加权逻辑回归方法在稀疏点击场景下可以很好使得时长逼近与期望值。假设就是weighted logistic regression学到的期望,其中N是样本数量,K是正样本,Ti是停留时长,真实期望就近似逼近E(T)*(1-P),P是点击概率,E(T)是停留时长期望值,在P<<1情况下,真实期望值就逼近E(T),所以,通过加权逻辑回归方式做样本加权,切合我们点击稀疏的场景,通过样本加权方式使得模型学到item停留时长偏序关系。

      样本加权优化方式我们参照Youtube的时长建模,但具体做法上存在以下差异:

  • Youtube以时长为label做优化,而我们还是基于点击label,这样是为了保证模型感知相关性(CTR/CLICK);
  • Youtube是回归问题,通过指数函数拟合时长预测值,而我们则是分类问题,优化损失函数logloss;
  • 停留时长加权方式上我们考虑停留时长与视频本身时长关系,采用多分段函数平滑停留时长和视频本身时长关系,而youtube则是观看时长加权;

      上述差异主要从两个方面考虑:  

  1. 保证CTR稳定的前提下(模型label依然是点击),通过样本reweight去优化时长目标。
  2. 分段函数平滑保证长短视频的下发量严重倾斜,尽可能去减少因为视频长短因素,而模型打分差距较大问题。

                                        

       我们的模型网络结构与youtube差异不大,底层特征做embedding共享,离散归一化。训练是通过引入weighted logistic去优化时长目标,在线预测依然是0/1概率,而在0/1概率跟之前不同是的经过时长bias修正,使得模型排序考虑真实相关性。

离线评估指标

  1. AUC:AUC作为排序模型常用离线评估特别适用是0/1分类问题,目前我们模型label还是点击0/1问题,所以,AUC是一个基础离线指标。但是AUC很难准确地评估模型对于时长优化好坏,因此AUC只是作为模型准入的条件,保证AUC持平/正向情况下,我们需要时长指标衡量模型好坏。
  2. AVG_RDTM: (预测平均停留时长)——每一batch中选取模型打分topk正样本item,取这批停留时长均值作为AVG_RDTM, 通过AVG_RDTM的大小来离线评估模型在时长推荐的好坏。 通过AUC保证推荐感知相关性(CTR), 而AVG_RDTM则是在这批正样本Item内最大化停留时长的评估,在线时长指标趋势与AVG_RDTM趋势一致,涨幅上有diff。

PCR_NORM REWEIGHTING

      一期在停留时长样本加权上取得不错的收益,二期是集中播放完成率上的优化。

      二期优化来源于我们策略review结果,我们发现一大部分高播放完成率的视频,CTR较低,打分靠后,这批item中视频本身时长1min内占比较大。一期我们用时长分段函数来做样本加权,一定程度上平滑了视频本身时长对打分影响,而播放完成率体现用户对单item的注意力,更能反映推荐的真实相关性。短视频时长,播放完成率取得突破对于信息流规模化和口碑打造具有强推进剂作用

      针对以上较短,较长的优质视频打分靠后,下发量不足的问题,我们引入分位数播放完成率来做平滑加权。主要是以下两种方式:

  • 时长目标优化从停留时长加权演变至播放完成率加权,更好的平滑长短视频之间的打分差异,使得模型打分更加注重于真实相关性。
  • 视频时长分段,停留时长完成率分位数归一化+威尔逊置信区间平滑,使得各视频时长段播放完成率相对可比,避免出现打分因视频长度严重倾斜情况。

      此外,较短或较长的视频在播放完成率上有天然的差距,我们按视频本身长度离散,停留时长做分位数处理,归一化长短视频播放完成率上的差异,使得各长度段的视频播放完成率可比。

                                     

                                                     

      时长多目标优化从停留时长升级至PCR_Norm, 全局Item停留时长处在相对可比的状态,尽可能减少视频本身时长对打分影响,使得模型打分更加专注于User-Item真实相关性和视频质量,提升长尾优质的视频Item消费。

      二期Pcr_norm优化基于一期时长加权基础上,离线评估与一期优化类似:AUC与AVG_RDTM,归一化的播放完成率更能反映用户对item的专注度,通过优化单次阅读时长,阅读完成率来提升整体的停留时长消费,拉升大盘指标。

优化收益

      一期+二期离线AUC累积提升6%以上,在线人均时长累积提升10%以上。

结语

       信息流短视频多目标优化目前处于探索阶段,初步探索出短视频多目标优化渐进路线,从样本reweight -> point-wise时长建模 -> list-wise时长建模 -> 多模态联合学习方向。此外,沉淀了一些策略review和数据分析方法论,为后续时长优化提供数据基础。

       虽然现阶段时长多目标优化取得不错收益,但是优化规则性较多,后续我们将逐步转向自适应的时长建模,从point-wise到全局list-wise时长优化,由感知相关性优化转向真实相关性优化,力争在消费时长取得较大突破。而自适应的时长建模及点击目标与时长目标的权衡收益最大化,将是我们面临又一挑战。

目录
相关文章
|
机器学习/深度学习 自然语言处理 搜索推荐
为什么说多模态是推荐系统破局的关键?来自饿了么一线的实战复盘
推荐系统作为互联网时代连接用户与信息的核心技术,正在经历从传统协同过滤向多模态智能推荐的重要变革。随着深度学习技术的快速发展,特别是大语言模型和多模态预训练技术的成熟,推荐系统开始从单纯依赖用户行为ID特征转向充分利用商品图像、文本描述等丰富内容信息的新范式。
1206 18
|
12月前
|
缓存 监控 安全
通义大模型与现有企业系统集成实战《CRM案例分析与安全最佳实践》
本文档详细介绍了基于通义大模型的CRM系统集成架构设计与优化实践。涵盖混合部署架构演进(新增向量缓存、双通道同步)、性能基准测试对比、客户意图分析模块、商机预测系统等核心功能实现。同时,深入探讨了安全防护体系、三级缓存架构、请求批处理优化及故障处理机制,并展示了实时客户画像生成和动态提示词工程。通过实施,显著提升客服响应速度(425%)、商机识别准确率(37%)及客户满意度(15%)。最后,规划了技术演进路线图,从单点集成迈向自主优化阶段,推动业务效率与价值持续增长。
603 8
|
12月前
|
机器学习/深度学习 自然语言处理 监控
ms-swift 部分命令行参数说明
本资源介绍了机器学习训练中的关键参数设置及其影响,包括训练轮数、批量大小、学习率、梯度累积、模型微调等,并提供了针对不同任务和硬件配置的推荐值,帮助提升模型训练效率与性能。
1371 4
|
开发工具 git
Git的正确使用姿势与最佳实践
本文介绍了在现代软件开发中使用Git的一些最佳实践,以帮助开发人员更好地掌握Git的正确使用方法。这些实践包括合理的分支管理策略、频繁提交和有意义的提交信息、定期拉取主分支并解决冲突、代码审查、使用标签进行版本控制、避免在主分支上直接提交代码、使用.gitignore文件、学会使用Rebase、备份和远程仓库、以及持续学习与实践。这些实践有助于提高团队的协作效率,同时也有助于保持项目的稳定性和可维护性。正确使用Git需要积累经验,不断学习和实践。
1619 0
|
机器学习/深度学习 监控 搜索推荐
深度粗排模型的GMV优化实践:基于全空间-子空间联合建模的蒸馏校准模型
随着业务的不断发展,粗排模型在整个系统链路中变得越来越重要,能够显著提升线上效果。本文是对粗排模型优化的阶段性总结。
2377 0
深度粗排模型的GMV优化实践:基于全空间-子空间联合建模的蒸馏校准模型
|
机器学习/深度学习 分布式计算 PyTorch
大规模数据集管理:DataLoader在分布式环境中的应用
【8月更文第29天】随着大数据时代的到来,如何高效地处理和利用大规模数据集成为了许多领域面临的关键挑战之一。本文将探讨如何在分布式环境中使用`DataLoader`来优化大规模数据集的管理与加载过程,并通过具体的代码示例展示其实现方法。
1000 1
一键语法错误增强工具 ChineseErrorCorrector
【8月更文挑战第8天】ChineseErrorCorrector是一款实用的中文语法纠错工具,能迅速检测并修正文本中的语法错误,提升文本质量。其特点包括:1) 精准检测各种语法错误如词语搭配不当等;2) 提供详细错误解释及修改建议,助您学习语法规则;3) 快速高效地检查文本,适用于写作、编辑等场景。适合学生提高写作水平、商务文档的专业审阅、网络内容创作的质量把控以及翻译工作的校对等。总之,这款工具为中文文本提供了便捷高效的语法检查方案。
786 4
|
机器学习/深度学习 存储 分布式计算
KDD 2022 | 快手提出基于因果消偏的观看时长预估模型D2Q,解决短视频推荐视频时长bias难题
KDD 2022 | 快手提出基于因果消偏的观看时长预估模型D2Q,解决短视频推荐视频时长bias难题
1400 0
|
机器学习/深度学习 存储 人工智能
从Tensorflow模型文件中解析并显示网络结构图(pb模型篇)
从Tensorflow模型文件中解析并显示网络结构图(pb模型篇)
1540 1
从Tensorflow模型文件中解析并显示网络结构图(pb模型篇)
|
开发框架 调度 信息无障碍
详解Flutter中各种Binding
详解Flutter中各种Binding Flutter是一个快速的、现代化的、跨平台的移动应用程序开发框架。它具有高度可定制性和灵活性,可以让开发人员在多个平台上轻松开发高质量的应用程序。Flutter的核心原则是提供高性能、高可靠性和高生产力的开发体验。Flutter中的Binding是框架和引擎之间交互的接口,它们提供了从框架到引擎的连接和从引擎到框架的通信。下面是详细介绍Flutter中常用的Binding。
509 0