阿里巴巴淘系开源首个多模态直播服饰检索数据集

简介: 阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作,正式开源业界首个大规模的多模态直播服饰检索数据集(Watch and Buy),以推动视频多模态检索技术的研究。此前,依托该数据集举办的第一届淘宝直播商品识别大赛完美落幕,近2000支队伍参加了比赛,涌现了一批检索创新技术,有效提升淘宝直播场景中服饰检索的效果,形成了一定的学术和工业影响力。

阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作,正式开源业界首个大规模的多模态直播服饰检索数据集(Watch and Buy),以推动视频多模态检索技术的研究。此前,依托该数据集举办的第一届淘宝直播商品识别大赛完美落幕,近2000支队伍参加了比赛,涌现了一批检索创新技术,有效提升淘宝直播场景中服饰检索的效果,形成了一定的学术和工业影响力。

什么是 Watch and Buy?

直播带货是淘宝连接商品和消费者的重要方式,通过对直播视频中商品进行实时识别和推荐,可实现消费者边看边买的消费体验,有效提高商品购买的转化,有非常大的经济价值。通常情况下直播对应的数百款商品之间相似程度高,且直播画面中存在大量的背景干扰、灯光变化、商品遮挡和形变等,给直播画面中商品的匹配识别带来很大的技术挑战。

图片.gif

淘宝直播“边看边买”效果示例,借助PixelAI 商品识别算法,可以从该直播的商品库中识别出直播中主播讲解的商品,并在直播中通过商品卡片形式推荐给消费者。

为了提升直播中商品匹配识别的效果,我们依托淘宝直播海量数据,构建了业界最大规模的多模态视频商品检索数据集Watch and Buy (WAB)。

该数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对,具有规模大、标注全、模态多、功能广的特点。

我们抽取视频片段若干关键帧和商品的全部商品图进行了实例框级标注,商品id数达82,173个,标注图像数达1,042,178张,检测框实例1,654,780个

框级标注信息丰富多样,包括商品的检测框、类别、视角、展示方式、同款编号等。除了视觉标注,我们还对主播讲解语音进行了人工文本转录,同时提供了商品的标题文本信息。该数据集可用于物体检测的算法、商品重识别算法、主播意图识别、跨模态检索和多模态检索等多种算法的研究。

image.png

为什么需要 Watch and Buy?

当前开源的服饰检索数据集都存在一些不足,无法满足真实视频场景中服饰实时识别的应用和细致研究。

首先,已有开源数据集均为静态图片的数据集,而真实视频直播场景中还存着运动模糊、遮挡等问题;通过针对视频场景的数据集能够有效对上述问题进行研究和解决。

其次,已有开源数据集的图片多为网上收集,数目少、噪声大且标注维度不全,我们依托淘宝网和淘宝直播的真实业务场景,能够获取大规模、高质量和全面的商品信息。

最后,现有数据集多为单一的图片数据集,我们还提供了主播语音翻译文本、商品图标题文本等多模态的信息,进行多模态商品检索的研究,能够更加贴近真实场景。

我们相信 Watch and Buy 数据集的这些特性将会持续激发视频多模态检索领域的技术创新研究。

淘宝直播商品识别大赛简介

image.png

为了方便学术界广泛参与,我们将业务问题抽象为视频库和商品库之间的多模态视觉检索问题。在评价指标上,提出了片段级、帧级和检测框级评价标准,全面衡量选手算法效果。

为了保证选手算法既能快速迭代又能有效赋能线上真实业务,我们在初赛、复赛和决赛的赛题中逐步引导选手从技术贴近业务,其中,初赛为万级视频片段的检索问题,复赛则加入了真实场景中存在的商品缺失问题,决赛则是将选手方案部署到真实线上场景,直接评价完整直播视频的算法效果。

大赛由淘系技术部内容社交互动平台和天池竞赛平台共同举办, 发布了业界最丰富的7W规模多模态视频检索数据集,用于进行算法模型的训练和效果评测,并且提供了24W的比赛奖金奖励优秀参赛者,考虑到疫情期间高校参赛者的资源困难,**额外提供了GPU机器进行模型在线训练,最终吸引到1945支队伍参赛。
**

选手来源中,30%的队伍来自高校,26%来自公司,个人参赛有6%。选手学历分布为,40%的选手拥有硕士学历,24%的选手为本科,博士选手占6%。最终,来自中科院计算所和吉林大学的逐星团队以超越Baseline方案20%的成绩夺得本次比赛的冠军,另外多位来自高校的参赛同学表示已经在数据集上进行算法研究,并保持于主办方密切联系。

淘系技术的算法同学对优秀方案吸纳并补充到淘宝直播线上场景中,实现更好服务于淘宝直播商品识别业务。

淘系技术部—多媒体算法团队

我们依托淘系数十亿级的视频数据和千亿级商品数据,有丰富的业务场景和技术方向。我们着眼于淘宝直播和短视频,着手打造集团统一的视频内容理解框架,对图像&视频的生产、智能审核、大规模检索、高效率分发提供全链路的赋能。我们持续以技术驱动产品和商品创新,不断探索和衍生颠覆型互联网新技术。欢迎机器学习、视觉算法、音视频通信、端侧智能等领域全球顶尖专业人才加入,让科技引领面来未来的商业创新和进步。

请投递简历至邮箱:yangjiang.yj@alibaba-inc.com

附录:

淘宝直播商品识别大赛

Watch and Buy数据集开源

关注「淘系技术」微信公众号,一个有温度有内容的技术社区~
image.png

相关文章
|
4月前
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
639 0
|
4月前
|
人工智能 自然语言处理 搜索推荐
大模型应用产品「归一妙计」亮相,AI Agent落地广告投放场景
在通用L0级语言模型基础之上,结合领域知识训练出适配各应用场景的专属模型,将成为企业经营的“智慧大脑”。 在广告投放这一企业核心的营销场景中,「营销领域大模型」已成为引领行业变革的关键力量,它将重塑数字营销的内容生产方式、投放工作流、消费模式等等,进一步推动营销生态的发展和进化,让广告主的营销内容更丰富、投放更高效、转化更直观。 近期,归一智能正式发布了AI Agent应用产品「归一妙计」,这是一款基于「利欧归一」营销领域大模型,训练出的适配各媒体平台投放工作流的SEMGPT专属模型,能够为企业提供更加智能、精准和高效的AI广告投手服务。
593 0
大模型应用产品「归一妙计」亮相,AI Agent落地广告投放场景
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
CosyVoice 与 SenseVoice:阿里FunAudioLLM两大语音生成项目的深度评测
近年来,基于大模型的语音人工智能技术发展迅猛,为自然语音人机交互带来新的可能。通义语音大模型无疑是这一领域的佼佼者。它涵盖了语音理解与语音生成两大核心能力,可支持多种语音任务,包括多语种语音识别、语种识别、情感识别、声音事件检测以及语音合成等
525 1
|
2月前
|
存储 SQL 人工智能
|
3月前
|
人工智能 开发工具 Swift
ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发
魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。
|
11月前
|
人工智能 文字识别 开发者
CogVLM智谱AI 新一代多模态大模型发布,魔搭社区最佳实践体验!
继 5 月 18 日推出 VisualGLM-6B 后,智谱AI&清华KEG 潜心打磨,于近日发布并直接开源了更强大的多模态大模型——CogVLM-17B。模型已第一时间发布在魔搭社区,可体验!
|
11月前
|
机器学习/深度学习 缓存 搜索推荐
搜索推荐场景的技术
搜索推荐场景的技术
81 0
|
人工智能 达摩院
社区供稿 | 达摩院多模态对话大模型猫头鹰mPLUG-Owl大升级,登顶MMBench
近日,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。
|
人工智能 达摩院 自然语言处理
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
|
机器学习/深度学习 人工智能 自然语言处理
“阿里灵杰”问天引擎电商搜索算法大赛 | 学习笔记
快速学习“阿里灵杰”问天引擎电商搜索算法大赛
“阿里灵杰”问天引擎电商搜索算法大赛 | 学习笔记