买家秀视频标题生成模型 | KDD论文解读

简介: 电子商务领域的视频推荐对于获取新客户有着重要作用。例如,许多消费者会在商品评论区上传视频已分享他们独特的购物体验,这些独特的商品呈现方式或独特的商品使用方法可能会吸引潜在买家购买相同或类似的产品。相比于卖家秀视频(如广告),买家秀视频具有数量大和个性化强的优势,因此,将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。

新零售智能引擎事业群出品

电子商务领域的视频推荐对于获取新客户有着重要作用。例如,许多消费者会在商品评论区上传视频已分享他们独特的购物体验,这些独特的商品呈现方式或独特的商品使用方法可能会吸引潜在买家购买相同或类似的产品。相比于卖家秀视频(如广告),买家秀视频具有数量大和个性化强的优势,因此,将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。
在这种应用需求下,我们设计了买家秀视频标题自动生成模型,并从以下数据中抽取、关联和聚合有用的信息:1)买家秀视频本身。视频以动态图像的形式展现了买家偏好的商品视觉特征以及拍摄主题;2)买家撰写的评论。虽然评论有较多的噪声信息,不能直接作为视频标题呈现,但是其内容可能蕴含了买家对产品特点的偏好以及使用体验。3)关联商品的属性信息。来自商品评论区的买家秀视频会与一个特定的商品关联,我们提取了关联商品的属性信息,如中长款(连衣裙),作为输入。属性结构化的展现了商品的主要特点。接下来本文将介绍Gavotte的重要组成结构以及主要的实验和分析。
本文“Comprehensive Information Integration Modeling Framework for Video Titling”已被KDD 2020录用。

2. Gavotte: Graph based Video Title Generator

2.1 图表示

首先我们介绍一下Gavotte如何将三种输入表示成图结构。
image.png

  • 商品视频信息:我们首先使用了Landmark Detection技术(Liu et al. 2018)检测衣服类商品的商品部位特征,每一帧的每一个部位都视为图节点。我们将同帧的商品部位节点进行全连接,不同帧相同部位节点进行全连接,这种连接方式一方面有利于我们捕捉同帧商品部位间的交互和商品整体风格,另一方面能够捕捉每一个商品部位跨越时间线的动态变化以及不同视点(pointview)下对商品部位的全面感知。为了增强空间-时序视觉商品部位图的时序性和部位特点,我们给每一个节点都加上了位置嵌入(Position Embedding)(Jonas et al. 2017)和类型嵌入(Type Embedding),即最终的节点表征为:
    image.png
  • 视频评论信息:我们将评论中的每一个词作为图节点,并将有语法依赖关系的节点进行连接,我们发现相比于时序关系,捕捉评论中和商品有关的语义信息对生成标题更有价值。
  • 关联商品的属性信息:我们将每一个属性值(如 白色)作为图节点,并对所有节点进行全连接,属性间本身没有时序关系,使用图建模可以更好的探索属性间的特殊交互作用。

2.2 细粒度交互建模

如上图所示,细粒度交互建模对三个异构图的图内关系(Intra-Actions in Graph)和图间关系(Inter-Actions across Graphs)进行了建模。

  • 图内关系建模注重和商品有关的细粒度特征的识别。我们采用了常用而有效的图神经网络作为图内关系建模的可训练框架结构,和最原始的图神经网络相比,本文对信息传播时的根节点和邻居节点进行了单独建模,并采用了自门控机制(Self Gating)。
    image.png
  • 图间关系建模注重异构图之间商品有关细粒度特征的关联和聚合。根据其实际的物理意义,我们将图间关系建模模块称为全局-局部聚合模块(Global-Local Aggregation,GLA)。GLA包含全局门控访问(Global Gated Access)和局部注意(Local Attention)两个子模块。GLA的输入为查询图(Query Graph)和上下文图(Context Graph),输出的聚合图(Aggregated Graph)的结构与查询图一致。
    image.png
  • 全局门控访问用来加强上下文图中与查询图全局相关的信息(可以视为初步筛选过程),并抑制毫不相关的信息。

image.png

  • 局部注意力机制在局部层面(节点级别)筛选上下文图中和查询图节点相关的内容并聚合到该查询图节点上。
    image.png

2.3 故事线摘要模块

故事线摘要建模关注帧级别和视频级别的信息,因此采用帧特征和RNN来进行序列建模。首先我们利用全局-局部模块将细粒度信息和帧信息进行信息融合。这是因为我们发现视频帧建模(如商品-背景交互)和视频建模(如视频故事主题)和商品的细节特点息息相关。
image.png

之后我们采用RNN对视频帧进行序列建模。
image.png

2.4 解码器

在解码器部分我们采用常用的注意力增强的RNN结构(Li et al. 2015),我们在每一步解码阶段都会关注细粒度图信息和帧信息。
image.png

2.5 学习目标

我们采用了常用的交叉熵损失进行训练。
image.png

我们发现对于视频标题的生成,重复词的出现总是有损视频标题的整体吸引程度,因此我们参考了文本摘要(See et al. 2017)中常用的注意力覆盖损失,并提出了生成覆盖损失,用以惩罚和抑制重复词的生成。
image.png
image.png
image.png

3. 实验和分析

我们摘选了主要的实验结果
image.png

可以看到,我们的模型在两个淘宝商品数据集(T-VTD服饰类商品数据,和其他商品类别数据)上去得了最佳的效果。我们的模型在T-VTD上提升显著,在其他商品类别数据上提升会相对弱一些,但这是合理的结果,因为服饰类商品有良好的商品部位定义,我们在其他类别上采用了近似的方法(细节可关注论文)。
image.png

该图展示了Gavotte和其他两个典型模型(基于RNN的SOTA模型 M-Recnet (Wang et al. 2018),和基于Transformer的SOTA模型 M-Livebot (Ma et al. 2019))的生成案例对比。具体而言,第一个案例中M-Recnet生成标题有意义信息较少,第二个案例中M-LiveBot生成标题出现未完成和损坏的情况,Gavotte则生成了网络热词(如 出街、抢镜),生成句子更为流畅,更有吸引力。同时,Gavotte可以识别商品细节级别信息(如 破洞),商品级别信息(如 牛仔裤),商品与背景交互信息(如 出街抢镜)和视频级别故事情节信息(如 这样穿)。

4. 结果与展望

在这次分享中,我们介绍了买家秀视频标题生成模型,Gavotte,以为推荐场景下的买家秀视频自动配上有吸引力的标题。实验证明Gavotte在生成质量上相比一般性的视频描述生成方法取得了显著的提升,并在案例分析中能够捕捉 商品细节、商品整体、商品-背景交互和视频故事情节信息。
5. 参考文献
Liu, Jingyuan, and Hong Lu. "Deep fashion analysis with feature map upsampling and landmark-driven attention." In Proceedings of the European Conference on Computer Vision (ECCV), pp. 0-0. 2018.
Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional sequence to sequence learning." In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 1243-1252. JMLR. org, 2017.
Yao, Li, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, and Aaron Courville. "Describing videos by exploiting temporal structure." In Proceedings of the IEEE international conference on computer vision, pp. 4507-4515. 2015.
Abigail See, Peter J. Liu, Christopher D. Manning. "Get To The Point: Summarization with Pointer-Generator Networks". ACL (1), pp. 1073-1083. 2017.
Wang, Bairui, Lin Ma, Wei Zhang, and Wei Liu. "Reconstruction network for video captioning." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7622-7631. 2018.
Ma, Shuming, Lei Cui, Damai Dai, Furu Wei, and Xu Sun. "Livebot: Generating live video comments based on visual and textual contexts." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 6810-6817. 2019. 

更多数据挖掘领域内容请查看:《KDD精华论文解读》

相关文章
|
10月前
|
存储 搜索推荐 小程序
01、知网的论文
01、知网的论文
|
2月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
27 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
机器学习/深度学习 自然语言处理 搜索推荐
SIGIR 2022 | 推荐系统相关论文分类整理(三)
SIGIR 2022 | 推荐系统相关论文分类整理(三)
1601 0
|
机器学习/深度学习 人工智能 自然语言处理
预测过去?DeepMind用AI复原古希腊铭文,登Nature封面
预测过去?DeepMind用AI复原古希腊铭文,登Nature封面
|
机器学习/深度学习 网络架构
多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述
多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述
|
机器学习/深度学习 人工智能 数据可视化
CVPR 2022 | 北大、腾讯提出文字logo生成模型,脑洞大开堪比设计师
CVPR 2022 | 北大、腾讯提出文字logo生成模型,脑洞大开堪比设计师
175 0
|
机器学习/深度学习 算法 搜索推荐
CIKM论文解读 | 淘宝内容化推荐场景下对多场景全域表征的思考与应用
我们结合逛逛推荐场景中的具体问题,从多场景全域表征的视角进行了一系列的探索与内容推荐场景的应用,从全域表征的范围、信息迁移方式以及模型框架的应用等维度展开我们的优化工作,取得了阶段性的优化经验和业务效果。
576 0
|
机器学习/深度学习 存储 算法
顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!
顶会最强的前20%!电影情感效应预测论文拿下ACMMM Oral收录!
165 0
|
机器学习/深度学习 人工智能 自然语言处理
超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列
超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列
|
机器学习/深度学习 存储 算法
CVPR论文解读 | 弱监督的高保真服饰模特生成
本文在学术界率先提出,使用深度对抗生成网络拟合真实世界穿衣结果分布,设计投影算子来将服饰与人体粗略对齐结果投影至真实世界穿衣结果分布中,将此投影的结果作为虚拟试衣的预测结果。
301 0
CVPR论文解读 | 弱监督的高保真服饰模特生成