阿里巴巴淘系开源首个多模态直播服饰检索数据集

简介: 阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作,正式开源业界首个大规模的多模态直播服饰检索数据集(Watch and Buy),以推动视频多模态检索技术的研究。此前,依托该数据集举办的第一届淘宝直播商品识别大赛完美落幕,近2000支队伍参加了比赛,涌现了一批检索创新技术,有效提升淘宝直播场景中服饰检索的效果,形成了一定的学术和工业影响力。

阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作,正式开源业界首个大规模的多模态直播服饰检索数据集(Watch and Buy),以推动视频多模态检索技术的研究。此前,依托该数据集举办的第一届淘宝直播商品识别大赛完美落幕,近2000支队伍参加了比赛,涌现了一批检索创新技术,有效提升淘宝直播场景中服饰检索的效果,形成了一定的学术和工业影响力。

什么是 Watch and Buy?

直播带货是淘宝连接商品和消费者的重要方式,通过对直播视频中商品进行实时识别和推荐,可实现消费者边看边买的消费体验,有效提高商品购买的转化,有非常大的经济价值。通常情况下直播对应的数百款商品之间相似程度高,且直播画面中存在大量的背景干扰、灯光变化、商品遮挡和形变等,给直播画面中商品的匹配识别带来很大的技术挑战。

图片.gif

淘宝直播“边看边买”效果示例,借助PixelAI 商品识别算法,可以从该直播的商品库中识别出直播中主播讲解的商品,并在直播中通过商品卡片形式推荐给消费者。

为了提升直播中商品匹配识别的效果,我们依托淘宝直播海量数据,构建了业界最大规模的多模态视频商品检索数据集Watch and Buy (WAB)。

该数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对,具有规模大、标注全、模态多、功能广的特点。

我们抽取视频片段若干关键帧和商品的全部商品图进行了实例框级标注,商品id数达82,173个,标注图像数达1,042,178张,检测框实例1,654,780个

框级标注信息丰富多样,包括商品的检测框、类别、视角、展示方式、同款编号等。除了视觉标注,我们还对主播讲解语音进行了人工文本转录,同时提供了商品的标题文本信息。该数据集可用于物体检测的算法、商品重识别算法、主播意图识别、跨模态检索和多模态检索等多种算法的研究。

image.png

为什么需要 Watch and Buy?

当前开源的服饰检索数据集都存在一些不足,无法满足真实视频场景中服饰实时识别的应用和细致研究。

首先,已有开源数据集均为静态图片的数据集,而真实视频直播场景中还存着运动模糊、遮挡等问题;通过针对视频场景的数据集能够有效对上述问题进行研究和解决。

其次,已有开源数据集的图片多为网上收集,数目少、噪声大且标注维度不全,我们依托淘宝网和淘宝直播的真实业务场景,能够获取大规模、高质量和全面的商品信息。

最后,现有数据集多为单一的图片数据集,我们还提供了主播语音翻译文本、商品图标题文本等多模态的信息,进行多模态商品检索的研究,能够更加贴近真实场景。

我们相信 Watch and Buy 数据集的这些特性将会持续激发视频多模态检索领域的技术创新研究。

淘宝直播商品识别大赛简介

image.png

为了方便学术界广泛参与,我们将业务问题抽象为视频库和商品库之间的多模态视觉检索问题。在评价指标上,提出了片段级、帧级和检测框级评价标准,全面衡量选手算法效果。

为了保证选手算法既能快速迭代又能有效赋能线上真实业务,我们在初赛、复赛和决赛的赛题中逐步引导选手从技术贴近业务,其中,初赛为万级视频片段的检索问题,复赛则加入了真实场景中存在的商品缺失问题,决赛则是将选手方案部署到真实线上场景,直接评价完整直播视频的算法效果。

大赛由淘系技术部内容社交互动平台和天池竞赛平台共同举办, 发布了业界最丰富的7W规模多模态视频检索数据集,用于进行算法模型的训练和效果评测,并且提供了24W的比赛奖金奖励优秀参赛者,考虑到疫情期间高校参赛者的资源困难,**额外提供了GPU机器进行模型在线训练,最终吸引到1945支队伍参赛。
**

选手来源中,30%的队伍来自高校,26%来自公司,个人参赛有6%。选手学历分布为,40%的选手拥有硕士学历,24%的选手为本科,博士选手占6%。最终,来自中科院计算所和吉林大学的逐星团队以超越Baseline方案20%的成绩夺得本次比赛的冠军,另外多位来自高校的参赛同学表示已经在数据集上进行算法研究,并保持于主办方密切联系。

淘系技术的算法同学对优秀方案吸纳并补充到淘宝直播线上场景中,实现更好服务于淘宝直播商品识别业务。

淘系技术部—多媒体算法团队

我们依托淘系数十亿级的视频数据和千亿级商品数据,有丰富的业务场景和技术方向。我们着眼于淘宝直播和短视频,着手打造集团统一的视频内容理解框架,对图像&视频的生产、智能审核、大规模检索、高效率分发提供全链路的赋能。我们持续以技术驱动产品和商品创新,不断探索和衍生颠覆型互联网新技术。欢迎机器学习、视觉算法、音视频通信、端侧智能等领域全球顶尖专业人才加入,让科技引领面来未来的商业创新和进步。

请投递简历至邮箱:yangjiang.yj@alibaba-inc.com

附录:

淘宝直播商品识别大赛

Watch and Buy数据集开源

关注「淘系技术」微信公众号,一个有温度有内容的技术社区~
image.png

相关文章
|
6月前
|
人工智能 自然语言处理 搜索推荐
大模型应用产品「归一妙计」亮相,AI Agent落地广告投放场景
在通用L0级语言模型基础之上,结合领域知识训练出适配各应用场景的专属模型,将成为企业经营的“智慧大脑”。 在广告投放这一企业核心的营销场景中,「营销领域大模型」已成为引领行业变革的关键力量,它将重塑数字营销的内容生产方式、投放工作流、消费模式等等,进一步推动营销生态的发展和进化,让广告主的营销内容更丰富、投放更高效、转化更直观。 近期,归一智能正式发布了AI Agent应用产品「归一妙计」,这是一款基于「利欧归一」营销领域大模型,训练出的适配各媒体平台投放工作流的SEMGPT专属模型,能够为企业提供更加智能、精准和高效的AI广告投手服务。
641 0
大模型应用产品「归一妙计」亮相,AI Agent落地广告投放场景
|
传感器 人工智能 算法
AI概述:阿里文娱智能算法的新应用
阿里巴巴文娱-智能算法的新应用方向
AI概述:阿里文娱智能算法的新应用
|
1月前
|
机器学习/深度学习 存储 自然语言处理
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(上)
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(上)
25 0
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(下)
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(下)
20 0
|
5月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之电商建议使用哪个产品分割
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
人工智能 达摩院 自然语言处理
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
|
SQL 机器学习/深度学习 存储
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话(1)
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话
556 0
|
SQL 人工智能 达摩院
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话(2)
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话
528 0
|
机器学习/深度学习 人工智能 自然语言处理
“阿里灵杰”问天引擎电商搜索算法大赛 | 学习笔记
快速学习“阿里灵杰”问天引擎电商搜索算法大赛
“阿里灵杰”问天引擎电商搜索算法大赛 | 学习笔记
|
SQL 机器学习/深度学习 存储
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话
在过去两年时间里,阿里达摩院对话智能团队(Conversational AI)围绕 TableQA 做了一系列探索,先后在四大国际权威榜单上取得第一名,并且开源了首个中文预训练表格模型。同时,把 TableQA 技术落地为产品,在阿里云智能客服中开始规模化推广,成为具备差异化竞争力的新产品。本文将对达摩院在 TableQA 技术方向的系列探索创新和业务落地做系统的梳理介绍。
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话
下一篇
无影云桌面