买家秀视频标题生成模型 | KDD论文解读

简介: 电子商务领域的视频推荐对于获取新客户有着重要作用。例如,许多消费者会在商品评论区上传视频已分享他们独特的购物体验,这些独特的商品呈现方式或独特的商品使用方法可能会吸引潜在买家购买相同或类似的产品。相比于卖家秀视频(如广告),买家秀视频具有数量大和个性化强的优势,因此,将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。

新零售智能引擎事业群出品

电子商务领域的视频推荐对于获取新客户有着重要作用。例如,许多消费者会在商品评论区上传视频已分享他们独特的购物体验,这些独特的商品呈现方式或独特的商品使用方法可能会吸引潜在买家购买相同或类似的产品。相比于卖家秀视频(如广告),买家秀视频具有数量大和个性化强的优势,因此,将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。
在这种应用需求下,我们设计了买家秀视频标题自动生成模型,并从以下数据中抽取、关联和聚合有用的信息:1)买家秀视频本身。视频以动态图像的形式展现了买家偏好的商品视觉特征以及拍摄主题;2)买家撰写的评论。虽然评论有较多的噪声信息,不能直接作为视频标题呈现,但是其内容可能蕴含了买家对产品特点的偏好以及使用体验。3)关联商品的属性信息。来自商品评论区的买家秀视频会与一个特定的商品关联,我们提取了关联商品的属性信息,如中长款(连衣裙),作为输入。属性结构化的展现了商品的主要特点。接下来本文将介绍Gavotte的重要组成结构以及主要的实验和分析。
本文“Comprehensive Information Integration Modeling Framework for Video Titling”已被KDD 2020录用。

2. Gavotte: Graph based Video Title Generator

2.1 图表示

首先我们介绍一下Gavotte如何将三种输入表示成图结构。
image.png

  • 商品视频信息:我们首先使用了Landmark Detection技术(Liu et al. 2018)检测衣服类商品的商品部位特征,每一帧的每一个部位都视为图节点。我们将同帧的商品部位节点进行全连接,不同帧相同部位节点进行全连接,这种连接方式一方面有利于我们捕捉同帧商品部位间的交互和商品整体风格,另一方面能够捕捉每一个商品部位跨越时间线的动态变化以及不同视点(pointview)下对商品部位的全面感知。为了增强空间-时序视觉商品部位图的时序性和部位特点,我们给每一个节点都加上了位置嵌入(Position Embedding)(Jonas et al. 2017)和类型嵌入(Type Embedding),即最终的节点表征为:
    image.png
  • 视频评论信息:我们将评论中的每一个词作为图节点,并将有语法依赖关系的节点进行连接,我们发现相比于时序关系,捕捉评论中和商品有关的语义信息对生成标题更有价值。
  • 关联商品的属性信息:我们将每一个属性值(如 白色)作为图节点,并对所有节点进行全连接,属性间本身没有时序关系,使用图建模可以更好的探索属性间的特殊交互作用。

2.2 细粒度交互建模

如上图所示,细粒度交互建模对三个异构图的图内关系(Intra-Actions in Graph)和图间关系(Inter-Actions across Graphs)进行了建模。

  • 图内关系建模注重和商品有关的细粒度特征的识别。我们采用了常用而有效的图神经网络作为图内关系建模的可训练框架结构,和最原始的图神经网络相比,本文对信息传播时的根节点和邻居节点进行了单独建模,并采用了自门控机制(Self Gating)。
    image.png
  • 图间关系建模注重异构图之间商品有关细粒度特征的关联和聚合。根据其实际的物理意义,我们将图间关系建模模块称为全局-局部聚合模块(Global-Local Aggregation,GLA)。GLA包含全局门控访问(Global Gated Access)和局部注意(Local Attention)两个子模块。GLA的输入为查询图(Query Graph)和上下文图(Context Graph),输出的聚合图(Aggregated Graph)的结构与查询图一致。
    image.png
  • 全局门控访问用来加强上下文图中与查询图全局相关的信息(可以视为初步筛选过程),并抑制毫不相关的信息。

image.png

  • 局部注意力机制在局部层面(节点级别)筛选上下文图中和查询图节点相关的内容并聚合到该查询图节点上。
    image.png

2.3 故事线摘要模块

故事线摘要建模关注帧级别和视频级别的信息,因此采用帧特征和RNN来进行序列建模。首先我们利用全局-局部模块将细粒度信息和帧信息进行信息融合。这是因为我们发现视频帧建模(如商品-背景交互)和视频建模(如视频故事主题)和商品的细节特点息息相关。
image.png

之后我们采用RNN对视频帧进行序列建模。
image.png

2.4 解码器

在解码器部分我们采用常用的注意力增强的RNN结构(Li et al. 2015),我们在每一步解码阶段都会关注细粒度图信息和帧信息。
image.png

2.5 学习目标

我们采用了常用的交叉熵损失进行训练。
image.png

我们发现对于视频标题的生成,重复词的出现总是有损视频标题的整体吸引程度,因此我们参考了文本摘要(See et al. 2017)中常用的注意力覆盖损失,并提出了生成覆盖损失,用以惩罚和抑制重复词的生成。
image.png
image.png
image.png

3. 实验和分析

我们摘选了主要的实验结果
image.png

可以看到,我们的模型在两个淘宝商品数据集(T-VTD服饰类商品数据,和其他商品类别数据)上去得了最佳的效果。我们的模型在T-VTD上提升显著,在其他商品类别数据上提升会相对弱一些,但这是合理的结果,因为服饰类商品有良好的商品部位定义,我们在其他类别上采用了近似的方法(细节可关注论文)。
image.png

该图展示了Gavotte和其他两个典型模型(基于RNN的SOTA模型 M-Recnet (Wang et al. 2018),和基于Transformer的SOTA模型 M-Livebot (Ma et al. 2019))的生成案例对比。具体而言,第一个案例中M-Recnet生成标题有意义信息较少,第二个案例中M-LiveBot生成标题出现未完成和损坏的情况,Gavotte则生成了网络热词(如 出街、抢镜),生成句子更为流畅,更有吸引力。同时,Gavotte可以识别商品细节级别信息(如 破洞),商品级别信息(如 牛仔裤),商品与背景交互信息(如 出街抢镜)和视频级别故事情节信息(如 这样穿)。

4. 结果与展望

在这次分享中,我们介绍了买家秀视频标题生成模型,Gavotte,以为推荐场景下的买家秀视频自动配上有吸引力的标题。实验证明Gavotte在生成质量上相比一般性的视频描述生成方法取得了显著的提升,并在案例分析中能够捕捉 商品细节、商品整体、商品-背景交互和视频故事情节信息。
5. 参考文献
Liu, Jingyuan, and Hong Lu. "Deep fashion analysis with feature map upsampling and landmark-driven attention." In Proceedings of the European Conference on Computer Vision (ECCV), pp. 0-0. 2018.
Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional sequence to sequence learning." In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 1243-1252. JMLR. org, 2017.
Yao, Li, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, and Aaron Courville. "Describing videos by exploiting temporal structure." In Proceedings of the IEEE international conference on computer vision, pp. 4507-4515. 2015.
Abigail See, Peter J. Liu, Christopher D. Manning. "Get To The Point: Summarization with Pointer-Generator Networks". ACL (1), pp. 1073-1083. 2017.
Wang, Bairui, Lin Ma, Wei Zhang, and Wei Liu. "Reconstruction network for video captioning." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7622-7631. 2018.
Ma, Shuming, Lei Cui, Damai Dai, Furu Wei, and Xu Sun. "Livebot: Generating live video comments based on visual and textual contexts." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 6810-6817. 2019. 

更多数据挖掘领域内容请查看:《KDD精华论文解读》

相关文章
|
2月前
|
异构计算
基于MATLAB/Simulink实现交流异步电动机矢量控制的仿真
基于MATLAB/Simulink实现交流异步电动机矢量控制的仿真
|
5月前
|
人工智能 自然语言处理 监控
企业级智能客服系统建设方案(2026年1月)
瓴羊 Quick Service 是阿里云旗下智能客服产品,依托大模型技术与电商服务经验,助力企业构建智能化、全渠道、高效率的客户服务系统。具备快部署、强智能、深集成等优势,支持人机协同与知识库自动优化,广泛适用于零售、金融等行业,推动客服从成本中心向价值引擎转型。(239字)
|
搜索推荐 机器学习/深度学习 算法
如何增加用户的参与感?交互式推荐来了!
一方面,互动能让用户感受到更多的参与感,并能一定程度上干预推荐结果,而不只是被动接受推荐结果;另一方面,系统通过与用户的互动能更加了解用户的偏好,从而提升推荐效果。那么,我们是如何让用户和推荐系统互动起来的呢?且看下文。
5782 0
|
10月前
|
JSON 搜索推荐 机器人
直播间自动发言机器人,抖音快手小红书哔哩哔哩机器人, 自动评论app机器人打字弹幕脚本
多平台支持:整合抖音、哔哩哔哩等平台的自动化操作 智能评论生成:结合视频内容动态生成个性化评论
|
8月前
|
安全 API
LlamaIndex检索调优实战:分块、HyDE、压缩等8个提效方法快速改善答案质量
本文总结提升RAG检索质量的八大实用技巧:语义分块、混合检索、重排序、HyDE查询生成、上下文压缩、元数据过滤、自适应k值等,结合LlamaIndex实践,有效解决幻觉、上下文错位等问题,显著提升准确率与可引用性。
839 8
|
编解码 JSON 物联网
腾讯开源HunyuanVideo-I2V图生视频模型+LoRA训练脚本,社区部署、推理实战教程来啦!
继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。
2185 9
|
机器学习/深度学习 人工智能 自然语言处理
自适应Prompt技术:让LLM精准理解用户意图的进阶策略
自适应Prompt技术通过动态意图解析与反馈驱动优化,将LLM从“机械执行者”进化为“认知协作者”。企业落地时需聚焦垂直场景,结合自动化工具链快速验证价值。
862 9
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
1843 62
AI经营|多Agent择优生成商品标题
|
机器学习/深度学习 人工智能 自然语言处理
AI生成内容为什么有"AI味"?各大模型如何破局
本文深入探讨了AI生成内容中普遍存在的“AI味”现象,从技术角度剖析其成因及解决方法。“AI味”主要表现为语言模式同质化、情感表达平淡、创新性不足和上下文理解局限。这些特征源于训练数据偏差、损失函数设计及安全性约束等技术因素。各大厂商如OpenAI、Anthropic、Google以及国内的百度、阿里云等,正通过多样性训练、Constitutional AI、多模态融合等方法应对这一挑战。未来,对抗性训练、个性化定制、情感建模等技术创新将进一步减少“AI味”。尽管“AI味”反映了当前技术局限,但随着进步,AI生成内容将更自然,同时引发关于人类创作与AI生成界限的哲学思考。
1699 0
|
存储 JSON 安全
使用 Qwen 进行Self-instruct数据生成
使用Qwen进行自指令数据生成,通过Self-instruct技术自动化为大型语言模型生成指令。用户可安装CAMEL包并设置Qwen API密钥,配置ChatAgent和SelfInstructPipeline,基于种子指令迭代生成大量新指令。支持多种过滤器(如长度、关键词、标点符号等)确保生成指令的质量和多样性。欢迎加入Discord获取支持与交流。
使用 Qwen 进行Self-instruct数据生成