FashionBERT 电商领域多模态研究:如何做图文拟合?

简介: 目前学术界关于多模态的研究重点在通用领域,针对电商领域的研究相对较少。在多模态数据匹配上,使用 ViLBERT 方法在通用领域的效果确实不错,但是在电商领域,由于提取的 ROI 并不理想,导致效果低于预期。本文提出了一种图文匹配模型—— FashionBERT,其核心问题是如何解决电商领域图像特征的提取或者表达,分享了模型的整体结构及算法,以及在业务上的应用效果和实验数据提升。该论文已经被信息检索领域国际顶级会议 SIGIR20 Industry Track 接收。(文末福利:贾扬清分享人工智能算法和系统的进化)

image.png

背景

随着 Web 技术发展,互联网上包含大量的多模态信息(包括文本,图像,语音,视频等)。从海量多模态信息搜索出重要信息一直是学术界研究重点。多模态匹配核心就是图文匹配技术 (Text and Image Matching),这也是一项基础研究,在非常多的领域有很多应用,例如图文检索 (Cross-modality IR),图像标题生成 (Image Caption),图像问答系统 (Vision Question Answering), 图像知识推理 (Visual Commonsense Reasoning)。但是目前学术界研究重点放在通用领域的多模态研究,针对电商领域的多模态研究相对较少,然而电商领域也非常需要多模态匹配模型,应用场景特别多。本文重点关注电商领域图文多模态技术研究。

多模态匹配研究简史

跨模态研究核心重点在于如何将多模态数据匹配上,即如何将多模态信息映射到统一的表征空间。早期研究主要分成两条主线:Canonical Correlation Analysis (CCA) 和Visual Semantic Embedding (VSE)。

CCA 系列方法

主要是通过分析图像和文本的 correlation,然后将图像和文本到同一空间。这一系列的问题论文完美,但是效果相对深度学习方法还是有待提高的。虽然后期也有基于深度学习的方案 (DCCA),但是对比后面的 VSE 方法还有一定差距。

VSE 系统方法

将图像和文本分别表示成 Latent Embedding,然后将多模态 Latent Embedding 拟合到同一空间。VSE 方法又延伸出来非常多的方法例如 SCAN,PFAN。这些方法在通用图文匹配上已经拿到不错效果。

随着 pre-training 和 self-supervised 技术在 CV 和 NLP 领域的应用。2019 年开始,有学者开始尝试基于大规模数据,使用预训练的 BERT 模型将图文信息拟合同一空间。这些方法在通用领域取得很好的效果,这一系列的方法可以参看 VLBERT 这篇 Paper。

基于 BERT 的预训练图文模型的主要流程:

1)利用图像目标检测技术先识别图像中的 Region of Interests(RoIs)。

2)把 ROI 当做图像的 token,和文本 token 做 BERT 多模态融合,这里面有两个方案:

  • Single-stream:以 VLBERT 为代表,直接将图像 token 和文本 token 放入到 BERT 做多模态融合。
  • Cross-stream:以 ViLBERT 为代表,将图像 token 和文本 token 先做初步的交互,然后在放入到 BERT。

我们尝试了 ViLBERT 方法,发现在通用领域效果确实不错。但是在电商领域,由于提取的 ROI 并不理想,导致效果低于预期。主要原因在于:

1)电商图像 ROI 太少

电商图像产品单一,背景简单提取 ROI 很少,如图 1(c)。统计来看,通用领域 MsCoCo 数据,每张图像可以提取 19.8 个 ROI,但是电商只能提取 6.4 个 ROI。当然我们可以强制提取最小的 ROI,比如 ViLBERT 要求在 10~36 个,VLBERT 要求 100 个。但是当设定最小提取的 ROI 后,又提取了太多了重复的 ROI,可以看图 1(e)。

2)电商 ROI 不够 fine-grained

电商图像单一,提取的 RoIs 主要是 object-level 的产品 (例如,整体连衣裙,T-shirt 等) 。相对文本来说,不够细粒度 fine-grain,比如文本里面可以描述主体非常细节属性 (如,圆领,九分裤,七分裤等等)。这就导致图像 ROI 不足以和文本 token 匹配,大家可以对比一下电商领域的图 1(c) 和图 1(d)。再看下通用领域的图 1(a) 和图 1(b),你会发现通用领域简单一些,只要能将图像中的主体和文本 token alignment 到一起,基本不会太差。

3)电商图像 ROI 噪音太大

如图 1(f) 中提取的模特头,头发,手指,对于商品匹配来说用处不大。

这也就解释了,电商领域也采用现有的 ROI 方式,并不能得到非常理想的结果。如果说,针对电商领域重新训练一个电商领域的 ROI 提取模型,需要大量的数据标注工作。那么有没有简单易行的方法做图文匹配拟合。

image.png
image.png
image.png
图1: 电商领域 ROI 问题

FashionBERT 图文匹配模型

本文我们提出了 FashionBERT 图文匹配模型,核心问题是如何解决电商领域图像特征的提取或者表达。Google 在 2019 年年中发表了一篇文章图像自监督学习模型 selfie,主要思路是将图像分割成子图,然后预测子图位置信息。从而使模型达到理解图像特征的目的,这个工作对我们启发很大。我们直接将图像 split 相同大小的 Patch,然后将 Patch 作为图像的 token,和文本进行拟合,如图二所示。使用 Patch 的好处:

  • 图像 Patch 包含了所有图像的细节信息。
  • 图像 Patch 不会出现重复的 ROI 或者太多无用的 ROI。
  • 图像 Patch 是天然包含顺序的,所以解决 BERT 的 sequence 问题。

FashionBERT 整体结构如图 2,主要包括 Text Embedding, Patch Embedding, Cross-modality FashionBERT,以及 Pretrain Tasks。

Text Embedding

和原始 BERT 一样,先将句子分成 Token,然后我们采用 Whole Word Masking 技术将整个 Token 进行 masking。Masking 的策略和原始的 BERT 保持一致。

Patch Embedding

和 Text Embedding 类似,这里我们将图片平均分成 8*8 个 patch。每个 Patch 经过 ResNet 提取 patch 的图像特征,我们提取 2048 维图像特征。Patch mask 策略,我们随机 masked 10% 的 patch,masked 的 patch 用 0 代替。同时在 Segment 字段我们分别用 "T" 和 "I" 区分文 本token 输入和图像 patch 输入。

Cross-modality FashionBERT

采用预训练的 BERT 为网络,这样语言模型天然包含在 FashionBERT 中。模型可以更加关注图文匹配融合。

image.png

图2: FashionBERT 主要框架

FashionBERT 模型在 pretrain 阶段,总共包含了三个任务:

1 Masked Language Modeling (MLM)

预测 Masked Text Token,这个任务训练和参数我们保持和原始的 BERT 一致。

2 Masked Patch Modeling (MPM)
预测 Masked Patch,这个任务和 MLM 类似。但是由于图像中没有 id 化的 token。这里我们用 patch 作为目标,希望 BERT 可以重构 patch 信息,这里我们选用了 KLD 作为 loss 函数。

3 Text and Image Alignment

和 Next Sentence Prediction 任务类似,预测图文是否匹配。正样本是产品标题和图片,负样本我们随机采样同类目下其他产品的图片作为负样本。

这是一个多任务学习问题,如何平衡这些任务的学习权重呢?另外,还有一个问题,目前很多实验指出 BERT 中 NSP 的效果并不一定非常有效,对最终的结果的影响不是特别明朗。但是对于图文匹配来说,Text and Image Alignment 这个 loss 是至关重要的。那么如何平衡这几个任务的学习呢?这里我们提出 adaptive loss 算法,我们将学习任务的权重看做是一个新的优化问题,如图 3 所示。FashionBERT 的 loss 是整体 loss 的加和,由于只有三个任务,其实我们可以直接得到任务权重 W 的解析解(具体的求解过程可以参考我们论文,这里不再赘述)。

image.png

图3: Adaptive Loss

整个 w 的学习过程可以看做是一个学生想学习三门功课,w 的作用是控制学习的关注度,一方面控制别偏科,一方面总成绩要达到最高。具体 adaptive loss 算法,可以参看论文。从实际的效果来看 w,随着训练的迭代关注不同的任务,达到对任务做平衡的目的。

业务应用

目前 FashionBERT 已经开始在 Alibaba 搜索多模态向量检索上应用,对于搜索多模态向量检索来说,匹配任务可以看成是一个文文图匹配任务,即 User Query (Text)-Product Title (Text) - Product Image (Image) 三元匹配关系。FashionBERT 从上面的模型可以看到是一个基础的图文匹配模型,因此我们做了 Continue Pretrain 工作,同时加入 Query,Title,Image Segment 区分,如图四所示。和 FashionBERT 最大的区别在于我们引入三个 segment 类型,“Q”,“T”,“I” 分别代表 Query,Title,Image。

image.png

图4: FashionBERT Continue Pretrain

Continue Pretrain 之后的模型可以在非常小的 finetune 数据上就快速拿到非常不错的效果。目前我们向量检索模型如下图 5:

image.png

图5: 向量检索 3.0 多模态强交互匹配模型

上图中我们采用双塔模型 (塔之间参数共享),这样可以方便在线 Query 向量生成和离线的产品向量生成。另外在 Query 侧,我们用共现的 Query 辅助 Query 的特征表达,在产品侧,我们用扩展信息扩大产品语义表达。

实验效果

公开数据集

我们采用 FashionGen 数据集,对比了主流图文匹配技术,以及最新的 ViLBERT 和 VLBERT,在图文匹配和 Cross-modality Retrieval 效果如下,FashionBERT 取得非常明显的提升。

image.png

ICBU 数据上

对比 BERT 模型,效果提升也非常明显。同时由于线上预测性能问题,finetune 模型做了模型约减,我们只用了 FashionBERT 前两层,同时引入缓存,动态可变长度 Variable Sequence Length (VSL) 策略,这样大大提升了 FashionBERT 线上服务性能。如下表所示。

image.png

目前论文已经被信息检索领域国际顶级会议 SIGIR20 Industry Track 中接收。预印版本见这里:https://arxiv.org/abs/2005.09801。感兴趣的同学后续可以看我们的论文,有更加详细的对比。

后续规划

图文匹配方向虽然已经有很长的研究历史了,但是基于 pretrain BERT 的方式还方兴未艾。后续我们计划在四个方面进行进一步优化:

  • 图像多尺度变化:多图像做多尺度变化,获取不同尺度下图像细粒度特征。
  • 文本 & 图像对齐:引入其他信息或者其他方式,在预训练过程中对文本 token 和图像区域做一定的对齐。
  • 行业知识引入:引入行业知识,学习不同行业下图文匹配模型。
  • 视频理解:做文本,图像,视频多模态理解。

相信基于 BERT 的强大拟合能力,多模态信息的匹配融合会越来越智能。

最后想说的是,我们招人!我所在的部门是新零售技术事业群,主要负责 alibaba.com 网站和 APP 的搜索、推荐、商品等领域相关的算法工作。非常期待具备机器学习 / 自然语言处理 / 图像处理 / 数据挖掘背景的同学加入。有意向的同学可以把简历发到我的邮箱中 dehong.gdh@alibaba-inc.com。

贾扬清直播分享 | 人工智能算法和系统的进化

贾扬清,曾任 Facebook AI 架构部门总监、Google Brain 研究科学家,Caffe 之父,TensorFlow 的作者之一,加州大学伯克利分校计算机科学博士学位,通过本次分享,介绍人工智能在近几年当中的算法和相应系统的进化过程,同时从技术角度阐述产品形态和用户场景。

识别下方二维码或点击文末“阅读原文”立马观看:
image.png

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
2月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
5月前
|
编解码 边缘计算 文字识别
SmolVLM:资源受限环境下的高效多模态模型研究
SmolVLM是一系列专为资源受限设备多模态模型,通过优化架构与训练策略,在图像和视频处理任务中表现出接近大型模型的性能。该系列包含三种变体:SmolVLM-256M、500M和2.2B,分别适用于极端边缘计算、中等资源设备及高端边缘系统。研究探索了视觉与语言组件间的参数分配、高效视觉信息传递机制、视频编码策略等关键技术,并在多个基准测试中展现出卓越性能。SmolVLM不仅在计算效率和内存占用上具有显著优势,还在设备端部署中表现出高吞吐量和广泛适用性,适用于智能手机、笔记本电脑以及专业领域如文档理解与生物医学视觉问答等场景。论文由Ritvik Rastogi发布,详细探讨了模型设计与实验结果。
213 3
SmolVLM:资源受限环境下的高效多模态模型研究
|
机器学习/深度学习 存储 算法
基于多模态融合与图神经网络的用户精准感知系统研究
基于多模态融合与图神经网络的用户精准感知系统研究
678 0
|
机器学习/深度学习 人工智能 自然语言处理
关于医学多模态大模型,你需要来学习这些最新研究
关于医学多模态大模型,你需要来学习这些最新研究
500 0
|
机器学习/深度学习 存储 自然语言处理
【CV学霸开讲】卷积神经网络压缩、多模态的语义分析研究
2017年度百度奖学金10位候选人中,人大的陈师哲和北大的王云鹤所学专业主要集中在计算机视觉,本文将详细呈现CV学子的求学经历和研究感悟,并独家分享他们和自己的学术大牛导师的相处轶事。
3560 0
|
1月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
265 23
|
2月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
1月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
145 0

热门文章

最新文章