多模态视频商品检索记录再刷新!第二届淘宝直播算法大赛完美落幕

简介: 多模态视频商品检索记录再刷新!第二届淘宝直播算法大赛完美落幕

111.gif

10月20-10月24日,多媒体方向学术盛会ACM Multimedia 2021 于中国成都正式召开。阿里巴巴淘系技术与浙江大学联合举办的直播中多模态商品识别Workshop暨第二届淘宝直播商品识别大赛圆满结束。



淘系技术通过该 Workshop 开源了业界首个大规模的多模态视频商品检索数据集,并联合浙江大学教授庄越挺、悉尼科技大学教授杨易、天津大学教授韩亚洪等国内外知名学者发起多模态检索领域的国际挑战赛,旨在共同推动电商直播场景中多模态商品检索识别的研究和 AI 技术在实际应用场景中的落地。

1.jpg在电商应用场景中,淘系技术通过直播商品识别算法,实现淘宝直播过程中商品和直播讲解点的有效关联,让消费者可以通过点击商品跳转观看该商品的真人讲解,实现边看边买的沉浸式消费体验。而直播间讲解商品多,视觉相似程度高,直播场景复杂度高,给直播中商品检索识别带来巨大的技术挑战。如何基于直播内容的理解,进行多模态商品检索和识别,是非常值得研究并需持续投入的课题。2.jpg

基于淘宝直播数据构建的多模态视频商品检索数据集Watch and Buy (WAB),淘系技术于4月27日正式发起第二届淘宝直播商品识别大赛,相较与第一届大赛,在赛题设计上引导选手注重全类别的识别效果,特别是长尾的商品类别、视觉纹理简单商品的识别等,另一方面更加强调多模态信息(主播讲解语音、商品标题)等信息在精确识别视觉相似讲解商品中的重要性。


本届赛事共吸引来自北京大学、清华大学、中科院、卡耐基梅隆大学、伦敦大学、南京大学、浙江大学等全球知名高校学者组成的587支队伍参加,历经3个月的激烈追逐,最终来自中科院计算所、北京大学、中南大学组成的队伍分别获得本赛事的冠军、亚军和季军。

3.jpg

直播中多模态商品识别Workshop于10月20日下午在成都举行,聚集了来自海内外的计算机视觉领域专家们带来了精彩分享。


其中包括新加坡国立大学计算机学院的KITHCT讲座教授Tat-Seng Chua分享的“Deep Visual Analytics: Towards more Effective Multimodal Retrieval, QA and Recommendation”的keynote talk,

北京航空航天大学的刘偲副教授以“Cross Modal Intelligence Analysis and Generation”为主题的学术报告,

还有来自悉尼科技大学青年研究员朱霖潮主题为 “Challenges and Opportunities of Multimodal Understanding”的学术报告,

由淘系技术高级算法专家陈志文带来题为“Industrial Practice of Multimodal Video Content Understanding”的工业实践分享。


来自中科院、北大、中南大学、清华、华中科技大学的五位同学进行了口头报告,分享了他们的参赛方案和成果。

11.jpg

阿里巴巴淘系技术资深算法专家李晓波表示,“淘宝拥有最大规模的商品库,淘宝直播作为直播领域的先行者,实现通过直播的方式更好连接商品和消费者。这个过程中,如何通过 AI 的能力,更好的理解视频直播内容,提升用户边看边买的消费体验是我们一直的追求。本次 workshop 通过提供真实的多模态商品识别的应用场景、数据,希望能够促进更多学术和工业的结合,激发更多创新研究和技术落地。


本届ACM MM 2021 的大会 co-chair,来自浙江大学的庄越挺教授也表示,“阿里巴巴提供了真实的高质量的直播商品检索场景和数据,能够让学术界很好的参与到这个问题中。


目录
打赏
0
0
0
0
27
分享
相关文章
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。
21 9
解锁文档管理系统高效检索奥秘:Python 哈希表算法探究
在数字化时代,文档管理系统犹如知识宝库,支撑各行各业高效运转。哈希表作为核心数据结构,通过哈希函数将数据映射为固定长度的哈希值,实现快速查找与定位。本文聚焦哈希表在文档管理中的应用,以Python代码示例展示其高效检索特性,并探讨哈希冲突解决策略,助力构建智能化文档管理系统。
【独家解密】如何在一个多月内高效完成多模态算法备案?一次性通过攻略大公开
在AI高速发展的时代,算法备案是产品上线的必备资质。本文分享了如何在短短一个多月内一次性通过算法备案的成功经验。筹备阶段包括网站注册、公司资料准备、算法制度及安全保障的制定;技术资料准备阶段确保算法描述清晰、流程精确、风险防控到位;提交后耐心等待审核结果,最终成功公示。关键在于充分准备和团队协作,希望这些经验能助你顺利通过备案。
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
130 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
淘天算法工程师玩转《黑神话》,多模态大模型如何成为天命AI
淘天集团未来生活实验室的算法工程师们以ARPG游戏《黑神话:悟空》为平台,探索多模态大模型(VLM)在仅需纯视觉输入和复杂动作输出场景中的能力边界。他们提出了一种名为VARP的新框架,该框架由动作规划系统和人类引导的轨迹系统组成,成功在90%的简单和中等难度战斗场景中取得胜利。研究展示了VLMs在传统上由强化学习主导的任务中的潜力,并提供了宝贵的人类操作数据集,为未来研究奠定了基础。
B端算法实践问题之使用concat_id算子获取用户最近点击的50个商品ID如何解决
B端算法实践问题之使用concat_id算子获取用户最近点击的50个商品ID如何解决
47 1
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
189 1
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
|
10月前
|
【优选算法】——Leetcode——LCR 179. 查找总价格为目标值的两个商品
【优选算法】——Leetcode——LCR 179. 查找总价格为目标值的两个商品
Java数据结构与算法:用于高效地存储和检索字符串数据集
Java数据结构与算法:用于高效地存储和检索字符串数据集

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等