多模态视频商品检索记录再刷新!第二届淘宝直播算法大赛完美落幕

简介: 多模态视频商品检索记录再刷新!第二届淘宝直播算法大赛完美落幕

111.gif

10月20-10月24日,多媒体方向学术盛会ACM Multimedia 2021 于中国成都正式召开。阿里巴巴淘系技术与浙江大学联合举办的直播中多模态商品识别Workshop暨第二届淘宝直播商品识别大赛圆满结束。



淘系技术通过该 Workshop 开源了业界首个大规模的多模态视频商品检索数据集,并联合浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者发起多模态检索领域的国际挑战赛,旨在共同推动电商直播场景中多模态商品检索识别的研究和 AI 技术在实际应用场景中的落地。

1.jpg在电商应用场景中,淘系技术通过直播商品识别算法,实现淘宝直播过程中商品和直播讲解点的有效关联,让消费者可以通过点击商品跳转观看该商品的真人讲解,实现边看边买的沉浸式消费体验。而直播间讲解商品多,视觉相似程度高,直播场景复杂度高,给直播中商品检索识别带来巨大的技术挑战。如何基于直播内容的理解,进行多模态商品检索和识别,是非常值得研究并需持续投入的课题。2.jpg

基于淘宝直播数据构建的多模态视频商品检索数据集Watch and Buy (WAB),淘系技术于4月27日正式发起第二届淘宝直播商品识别大赛,相较与第一届大赛,在赛题设计上引导选手注重全类别的识别效果,特别是长尾的商品类别、视觉纹理简单商品的识别等,另一方面更加强调多模态信息(主播讲解语音、商品标题)等信息在精确识别视觉相似讲解商品中的重要性。


本届赛事共吸引来自北京大学、清华大学、中科院、卡耐基梅隆大学、伦敦大学、南京大学、浙江大学等全球知名高校学者组成的587支队伍参加,历经3个月的激烈追逐,最终来自中科院计算所、北京大学、中南大学组成的队伍分别获得本赛事的冠军、亚军和季军。

3.jpg

直播中多模态商品识别Workshop于10月20日下午在成都举行,聚集了来自海内外的计算机视觉领域专家们带来了精彩分享。


其中包括新加坡国立大学计算机学院的KITHCT讲座教授Tat-Seng Chua分享的“Deep Visual Analytics: Towards more Effective Multimodal Retrieval, QA and Recommendation”的keynote talk,

北京航空航天大学的刘偲副教授以“Cross Modal Intelligence Analysis and Generation”为主题的学术报告,

还有来自悉尼科技大学青年研究员朱霖潮主题为 “Challenges and Opportunities of Multimodal Understanding”的学术报告,

由淘系技术高级算法专家陈志文带来题为“Industrial Practice of Multimodal Video Content Understanding”的工业实践分享。


来自中科院、北大、中南大学、清华、华中科技大学的五位同学进行了口头报告,分享了他们的参赛方案和成果。

11.jpg

阿里巴巴淘系技术资深算法专家李晓波表示,“淘宝拥有最大规模的商品库,淘宝直播作为直播领域的先行者,实现通过直播的方式更好连接商品和消费者。这个过程中,如何通过 AI 的能力,更好的理解视频直播内容,提升用户边看边买的消费体验是我们一直的追求。本次 workshop 通过提供真实的多模态商品识别的应用场景、数据,希望能够促进更多学术和工业的结合,激发更多创新研究和技术落地。


本届ACM MM 2021 的大会 co-chair,来自浙江大学的庄越挺教授也表示,“阿里巴巴提供了真实的高质量的直播商品检索场景和数据,能够让学术界很好的参与到这个问题中。


相关文章
|
8月前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
10月前
|
存储 运维 数据挖掘
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
在智能驾驶技术快速发展中,数据成为驱动算法进步的核心。某新能源汽车领军企业基于阿里云Milvus向量数据库构建智能驾驶数据挖掘平台,利用其高性能、可扩展的相似性检索服务,解决了大规模向量数据检索瓶颈问题,显著降低20%以上成本,缩短模型迭代周期,实现从数据采集到场景挖掘的智能化闭环,加速智能驾驶落地应用。
1139 3
革新智能驾驶数据挖掘检索效率!某国内新能源汽车未来出行领导者选择阿里云Milvus构建多模态检索引擎
|
8月前
|
人工智能 数据库 索引
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
502 107
|
8月前
|
机器学习/深度学习 自然语言处理 算法
小红书:通过商品标签API自动生成内容标签,优化社区推荐算法
小红书通过商品标签API自动生成内容标签,提升推荐系统精准度与用户体验。流程包括API集成、标签生成算法与推荐优化,实现高效率、智能化内容匹配,助力社交电商发展。
482 0
|
10月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
10月前
|
人工智能 弹性计算 JSON
再不玩通义VACE模型你就过时了!一个模型搞定所有视频任务
阿里巴巴开源通义万相Wan2.1-VACE,业界功能最全的视频生成与编辑模型,支持文生视频、图像参考生成、视频重绘、局部编辑、背景延展等,统一模型实现多任务自由组合,轻量版本消费级显卡即可运行。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
1137 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
7月前
|
存储 算法 编译器
算法入门:剑指offer改编题目:查找总价格为目标值的两个商品
给定递增数组和目标值target,找出两数之和等于target的两个数字。利用双指针法,left从头、right从尾向中间逼近,根据和与target的大小关系调整指针,时间复杂度O(n),空间复杂度O(1)。找不到时返回{-1,-1}。
|
9月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
1996 29
|
8月前
|
算法 API 数据安全/隐私保护
深度解析京东图片搜索API:从图像识别到商品匹配的算法实践
京东图片搜索API基于图像识别技术,支持通过上传图片或图片URL搜索相似商品,提供智能匹配、结果筛选、分页查询等功能。适用于比价、竞品分析、推荐系统等场景。支持Python等开发语言,提供详细请求示例与文档。

热门文章

最新文章