CVPR论文解读 | 剁手有了新方法,明星同款边看边买

简介: 阿里巴巴iDST 视频分析团队被CVPR 2017收录的论文《从视频到电商:视频衣物精确检索》围绕视频电商业务场景,提出了一个在线视频衣物精确检索系统。

注:CVPR是由全球最大的非营利专业技术学会IEEE电气和电子工程师协)举办的计算机视觉领域的国际顶会,2017 CVPR收到超过2500篇论文投递,最终收录不到800篇,阿里巴巴集团iDSTAI LAB 有多篇论文被收录。

本文作者:方广 磐君 思淘

阿里巴巴iDST 视频分析团队被CVPR 2017收录的论文《从视频到电商:视频衣物精确检索》围绕视频电商业务场景,提出了一个在线视频衣物精确检索系统。该系统能够满足用户在观看影视剧时想要同时购买明星同款的需求。整个系统采用了目前最先进的衣物检测和跟踪技术。针对明星同款检索中存在的多角度、多场景、遮挡等问题。提出可变化的深度树形结构(Reconfigurable Deep Tree structure)利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。该结构可以认为是对现有attention模型的一种扩展,可以用来解决多模型融合问题。

62cb6303525159c7122c022cfc7ddf779233ebfd

论文技术在天猫魔盒视频中应用

 

业务场景及研究问题:视频电商中的衣物精确匹配

早在 2014 年,阿里与优酷土豆发布视频电商战略,称未来可以实现边看边买,使得视频电商的概念,继微博电商,朋友圈电商之后浮出水面。电商平台拥有少量商品,而视频网站具有巨大的流量,二者结合是发展的必然结果。电商平台可以借助视频网站的流量来实现导流和平台下沉,而视频网站则需要通过广告点击和商品成交来实现流量变现,因此二者的结合可谓一拍即合。视频电商的商业主旨是打造以视频为入口的购物服务,视频中出现所有物体都可能是商品,提供包括边看边买、明星同款、广告投放等服务,它集娱乐、休闲、购物于一体,给用户构造出一种身临其境情境营销,或者是明星同款的冲动式消费。视频电商目前已经不是停留在概念层次了,视频网站向电商的导流转化也一直在不断的尝试中。

 

影视剧中的服饰存在较大的差异性和异构性, 同一个目标往往展现出较大的差异。服饰购物图像通常具有杂乱、多样的背景, 而且常在户外拍摄。多样化的背景可能是建筑物,街道、风景、汽车等多种情况。由于自然场景下受到光线、角度、大小、分 辨率、几何学和光度学的变化等影响,使得服饰呈现出现的外形极为复杂,即使是同一件服饰也会出现变化较大的效果。同时在线网站为更好地展示服饰的效果,通常聘请时尚模特穿着所售商品,模特/人物姿势变化也是导致服饰变化的一个重要因素。 由于以上这些因素,使得视频明星同款搜索成为了一个极具挑战性的技术问题。

 

网络结构及技术细节:

AsymNet网络结构:整个Asymnet深度神经网络结构如图1所示。当用户通过机顶盒(天猫魔盒)观看视频时,该网络将从电商网站(淘宝、天猫)检索到与之匹配的衣服,并推荐给用户。为忽略复杂背景对检索结果的影响,更准确的进行服装定位,我们首先应用服饰检测技术,提取得到服饰区域一组候选框。然后对这些候选框进行跟踪,得到明星同款在视频中的的运动轨迹。对于衣物候选区域和运动轨迹我们分别利用用图像特征网络(IFN)和视频特征网络(VFN)进行特征学习。考虑到服装的运动轨迹,衣物精确检索问题被定义为不对称(多对单)匹配问题,我们提出可变化的深度树形结(Reconfigurable Deep Tree Structure),利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。后续本文将详细介绍模型的各个部分。

ba0c922bbf0a2890dcd4419d912e339d68438028

1 Asymnet深度神经网络结构

 

图像特征网络(IFN):传统CNN网络要求输入图像为固定的227x227(因为CNN网络中的卷积层需要有一个确定的预定义的维度)。在视频电商业务场景中,因为衣物检测候选框为任意大小,尺度变化很大,传统CNN网络无法进行有效的特征学习。针对这一问题,我们利用空间金字塔池化结构(SPP)体系结构,如图2所示。它通过空间池聚合最后一个卷积层的特征,从而使池区域的大小与输入的大小无关。

dcd5300f11b1adffa1198d6b2945fe64739b1e2a

2 Asymnet图像特征网络(IFN

 

视频特征网络 (VFN)为了更好的考虑视频的空间序列模式,进一步提高衣物检索的性能。基于 LSTM,我们提出了视频特征网络 (VFN),如图3所示。其中实验验证明两层堆叠式 LSTM 结构能够在视频特征学习中得到最佳性能。

9db420ee251c76cd78cffd315e31c636c32bb629

3 Asymnet视频特征网络 (VFN)

 

相似性网络:明星同款匹配不同于近似衣物检索,精确匹配要求完全一致。在完全一致的 要求下,传统的通过相似性计算来进行检索的方法,不能满足明星同款精确匹配要求。已有的方法通常将精确匹配问题转换为一个二分类问题,但这种方式适应性差,只能利用单一时刻的视频帧。为了能够利用整个衣物运动轨迹,我们提出了如下的可变化的深度树形结构(Reconfigurable Deep Tree structure)将匹配问题转换为逻辑回归问题。匹配网络拟采用基于混合专家系统的逻辑回归网络。该结构可以认为是对现有attention模型的一种扩展,可以用来解决多模型融合问题。

db789ce66536014c4a9fff8f0e003d2ed45c35dd

4 Asymnet相似性网络

整个模型的目标函数是综合考虑每一帧的匹配结果,得到基于整个衣物运动序列和电商衣物的相似性,整个系统可以建模为对如下目标公式进行求解:

dd9a577c1badfcded863b8c9866659f09d07bfba

类似于attention机制,我们提出如下后验概率模型,来对上式进行求解:

c08d2e9036d4a95e57fecc016e557aa910849862

得到如下梯度并采用端到端方式进行网络学习。

2e1a458a7e23a74d9e6ab227b1eabfc34d7e69be

试验结果:我们利用业务数据和最新的衣物检索方法进行了对比,试验结果如下表所示。相对于alexnetAsymnet在前20的检索精确率指标上,其性能几乎提高了进一倍。相对于其他2种网络CS RC 我们发现RC的性能略优于CS,因为RC具有较强的识别能力差异较小(采用多任务学习)。甚至在对于某些类别(无明显差别)RC在精确率上甚至略好于AsymNet,但是总的来说AsymNet比目前现有的方法拥有更好的性能。因为Asymnet可以处理现有的视频的时空动态变化,并结合自动视频帧的自动调节炉排判别信息的融合策略。

71320f4a8d0c9ab60cd4d9dbf9cf38691c3c2651

论文下载链接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Cheng_Video2Shop_Exact_Matching_CVPR_2017_paper.pdf


相关文章:
目录
相关文章
|
4月前
|
人工智能 容器
AI画家的滑铁卢:为什么冰可乐不愿意住进茶杯里?
【8月更文挑战第28天】近年来,文本到图像的扩散模型在AI领域取得显著进展,但在生成图像与文本描述的一致性上仍存在问题,特别是对于复杂或不常见的组合。例如,提示“装着冰可乐的茶杯”常被错误生成为玻璃杯。这种现象称为潜在概念错位(LC-Mis)。为解决这一问题,研究人员利用大型语言模型(LLMs)分析文本提示并指导图像生成,同时开发自动化管道对齐潜在语义空间,显著提升了模型的准确性和鲁棒性。然而,该方法仍需大量计算资源且对某些复杂提示效果有限。论文链接:[https://arxiv.org/abs/2408.00230](https://arxiv.org/abs/2408.00230)。
47 8
|
人工智能 Serverless 开发者
阿里云 X 森马 AIGC T恤设计大赛开启! 穿什么由你定,赢Airpods,作品定制联名T恤
函数计算部署 Stable Diffusion, 内置常用插件+ControlNet,支持 SDXL1.0。阿里云 X 森马 AIGC T 恤设计大赛开启! 使用 SD 展现创意和技术,即有机会赢得 Airpods 、作品定制阿里云X森马联名T恤等丰厚奖励.
阿里云 X 森马 AIGC T恤设计大赛开启! 穿什么由你定,赢Airpods,作品定制联名T恤
|
人工智能 Serverless 开发者
阿里云 X 森马 AIGC T 恤设计大赛开启!穿什么由你定,赢 Airpods,作品定制联名T恤
阿里云 X 森马 AIGC T 恤设计大赛开启!穿什么由你定,赢 Airpods,作品定制联名T恤
|
人工智能 搜索推荐 iOS开发
ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯(2)
ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯
150 0
ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯(2)
|
存储 JSON 人工智能
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
172 0
送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔
|
人工智能 搜索推荐 区块链
ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯(1)
ChatGPT还在2G冲浪?新模型「youChat」:我已能够解说2022世界杯
150 0
|
机器学习/深度学习 传感器 存储
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
199 0
|
机器学习/深度学习 编解码 监控
大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军(内含夺冠方案)
近日,CVPR NTIRE 2023 Quality Assessment of Video Enhancement Challenge比赛结果公布,来自大淘宝音视频技术团队的同学组成「TB-VQA」队伍,从37支队伍中脱颖而出,拿下该比赛(唯一赛道)冠军。此次夺冠是团队继MSU 2020和2021世界编码器比赛、CVPR NTIRE 2022压缩视频超分与增强比赛夺魁后,再次在音视频核心技术的权威比赛中折桂。
190 0
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 消息中间件 人工智能
爱奇艺蒙版AI:弹幕穿人过,爱豆心中坐
作为(伪)AI 行业从业者,之心编辑部里的小伙伴们自认都能够以不错的置信度人工识别「人工智能与人工智障」。但是,当我把下面这张爱奇艺 app 的截图放在大家面前时,编辑部的「识别器」们纷纷表示,这次置信度不高。
441 0
爱奇艺蒙版AI:弹幕穿人过,爱豆心中坐