多模态视频商品检索记录再刷新！第二届淘宝直播算法大赛完美落幕-阿里云开发者社区

多模态视频商品检索记录再刷新！第二届淘宝直播算法大赛完美落幕

2021-11-12 533

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 多模态视频商品检索记录再刷新！第二届淘宝直播算法大赛完美落幕

10月20-10月24日，多媒体方向学术盛会ACM Multimedia 2021 于中国成都正式召开。阿里巴巴淘系技术与浙江大学联合举办的直播中多模态商品识别Workshop暨第二届淘宝直播商品识别大赛圆满结束。

淘系技术通过该 Workshop 开源了业界首个大规模的多模态视频商品检索数据集，并联合浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者发起多模态检索领域的国际挑战赛，旨在共同推动电商直播场景中多模态商品检索识别的研究和 AI 技术在实际应用场景中的落地。

在电商应用场景中，淘系技术通过直播商品识别算法，实现淘宝直播过程中商品和直播讲解点的有效关联，让消费者可以通过点击商品跳转观看该商品的真人讲解，实现边看边买的沉浸式消费体验。而直播间讲解商品多，视觉相似程度高，直播场景复杂度高，给直播中商品检索识别带来巨大的技术挑战。如何基于直播内容的理解，进行多模态商品检索和识别，是非常值得研究并需持续投入的课题。

基于淘宝直播数据构建的多模态视频商品检索数据集Watch and Buy (WAB)，淘系技术于4月27日正式发起第二届淘宝直播商品识别大赛，相较与第一届大赛，在赛题设计上引导选手注重全类别的识别效果，特别是长尾的商品类别、视觉纹理简单商品的识别等，另一方面更加强调多模态信息(主播讲解语音、商品标题)等信息在精确识别视觉相似讲解商品中的重要性。

本届赛事共吸引来自北京大学、清华大学、中科院、卡耐基梅隆大学、伦敦大学、南京大学、浙江大学等全球知名高校学者组成的587支队伍参加，历经3个月的激烈追逐，最终来自中科院计算所、北京大学、中南大学组成的队伍分别获得本赛事的冠军、亚军和季军。

直播中多模态商品识别Workshop于10月20日下午在成都举行，聚集了来自海内外的计算机视觉领域专家们带来了精彩分享。

其中包括新加坡国立大学计算机学院的KITHCT讲座教授Tat-Seng Chua分享的“Deep Visual Analytics: Towards more Effective Multimodal Retrieval, QA and Recommendation”的keynote talk，

北京航空航天大学的刘偲副教授以“Cross Modal Intelligence Analysis and Generation”为主题的学术报告，

还有来自悉尼科技大学青年研究员朱霖潮主题为 “Challenges and Opportunities of Multimodal Understanding”的学术报告，

由淘系技术高级算法专家陈志文带来题为“Industrial Practice of Multimodal Video Content Understanding”的工业实践分享。

来自中科院、北大、中南大学、清华、华中科技大学的五位同学进行了口头报告，分享了他们的参赛方案和成果。

阿里巴巴淘系技术资深算法专家李晓波表示，“淘宝拥有最大规模的商品库，淘宝直播作为直播领域的先行者，实现通过直播的方式更好连接商品和消费者。在这个过程中，如何通过 AI 的能力，更好的理解视频直播内容，提升用户边看边买的消费体验是我们一直的追求。本次 workshop 通过提供真实的多模态商品识别的应用场景、数据，希望能够促进更多学术和工业的结合，激发更多创新研究和技术落地。”

本届ACM MM 2021 的大会 co-chair，来自浙江大学的庄越挺教授也表示，“阿里巴巴提供了真实的高质量的直播商品检索场景和数据，能够让学术界很好的参与到这个问题中。”

多模态视频商品检索记录再刷新！第二届淘宝直播算法大赛完美落幕

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

多模态视频商品检索记录再刷新！第二届淘宝直播算法大赛完美落幕

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景