CVPR2021竞赛结果出炉,阿里淘系多媒体算法包揽3项国际冠军

本文涉及的产品
教育场景识别,教育场景识别 200次/月
小语种识别,小语种识别 200次/月
通用文字识别,通用文字识别 200次/月
简介: 在刚刚落下帷幕的计算机视觉与模式识别领域顶级会议 CVPR 2021 上,各项国际挑战赛的竞赛结果已全部揭晓。

原创 淘系技术 淘系技术 7月1日

640.gif


在刚刚落下帷幕的计算机视觉与模式识别领域顶级会议 CVPR 2021 上,各项国际挑战赛的竞赛结果已全部揭晓。


image.png


阿里巴巴淘系技术多媒体算法&视频内容理解算法团队,一举斩获
🎉 3 项国际冠军 🎉🎉 1 项国际亚军 🎉🎉 1 项国际季军 🎉

技术域包括图像描述生成、大规模实例级物体识别、多模态视频情感理解以及视频人物交互关系。


作为业界多媒体算法相关领域的领先团队,淘系技术的这支队伍着眼打造“端云一体、跨模态理解”的视频内容感知与理解算法平台;重点构建AR直播3D数字场内容智能生产审核检索高层语义理解等技术领域;支持着淘宝直播逛逛点淘等淘系内容业务,通过自研的内容中台为整个阿里集团的内容业务提供能力支持。
以下是本次3项国际冠军的竞赛内容详情&我们的攻克方法。



🏆 冠军 🏆

VizWiz Image Captioning


 题目


Workshop:CVPR 2021 VizWiz Grand Challenge WorkshopTRACK:Image Captioning


 参赛者


宏黎,宏吉,咏亮,玉琦,少麟,定人

 技术领域


图像描述生成


 比赛背景介绍


VizWiz Grand Challenge比赛从2018年开始举办,旨在利用计算机视觉技术帮助有视觉障碍的盲人“看见”世界。
该任务的输入是由盲人拍摄的图像,输出是图像的描述。
与其他Image Caption数据不同,该比赛的数据是由视觉有障碍的盲人拍摄,图像质量比较差,因此任务难度更高。


 我们的成绩


我们以 CIDEr-D score 94.06的成绩取得第一名,远超第2名的 CIDEr-D score 71.98。
总分也超过去年冠军 IBM 的CIDEr-D score 81.04。
image.png



 任务难点


该任务主要有两个难点:

  1. 图像质量较差:含各种室内、室外的场景,同时由于拍摄者视觉障碍,拍摄图像会出现失焦模糊、拍摄不全、遮挡等问题;
  2. 许多图像描述需要理解图像中的文字,不同物体,颜色等信息,需要OCR,物体检测等细节理解能力。


 我们通过以下途径解决这些困难


  1. 针对VizWiz数据图像特性,采用swin-transformer抽取图像的grid feature替换object feature,以充分表征不同图像区域的特性;
  2. 考虑到OCR及物体信息会对image caption生成产生正向引导,我们抽取了OCR及目标检测类别信息,作为特征补充;
  3. 并不是所有的图像都含有OCR信息,我们采用多种模型互补融合,用视觉模态模型强化那些不含OCR的数据,用视觉+文本(OCR+物体类别)多模态模型强化含有OCR信息较丰富的数据;
  4. 针对多种模型生成的结果,考虑到最终的衡量指标是CIDEr,我们通过self-cider、ocr maximization 多种策略融合的方式进行结果融合。


 可应用的场景


Image captioning需要视觉理解与文本生成,是视觉和NLP任务的结合,可应用于互联网产品的内容标题自动生成,另外也可以帮助盲人和视觉受损用户提升他们对世界的感知能力。


 赛事链接


  1. workshop:

 https://vizwiz.org/workshops/2021-workshop/  


  1. challenge:

 https://eval.ai/web/challenges/challenge-page/739/overview


🏆 冠军 🏆

Herbarium 2021 - Half-Earth Challenge

 题目


Workshop:The Eight Workshop on Fine-Grained Visual CategorizationTask:fine-grained plant species identification


 参赛者


元年,兰枻,琉潇,有邻,暖雨,济宇,篱悠


 技术领域


大规模实例级物体识别


 比赛背景介绍


Herbarium 2021属于 CVPR2021 FGVC8 workshop的一项比赛,该workshop针对实例级细粒度识别问题,已经连续举办第八届。
Herbarium 2021 比赛数据集为从多个大型植物园收集的美洲、大洋洲等半个地球的6.5W类2.5M张植物样本图片,用于训练植物识别算法,辅助植物学家进行植物识别,发现和保护新物种。
该数据集存在长尾分布,样本数目最少的类别仅有3张样本,同时,不同植物间视觉非常相似,同时同一植物的不同样本有较大差异,给实例级识别带来很大挑战。


 我们的成绩


我们以F1 score 0.757的成绩在该项比赛上取得了第一名的成绩,远超第二名的0.735和第三名的 0.689。

image.png


 任务难点


该任务主要存在以下两个难点:

  1. 植物种类多、类别细,不同植物间视觉非常相似,而同一植物的不同样本存在差异,导致类间易混淆,区分难度大;
  2. 数据集的样本分布不均衡,存在长尾分布,样本数目最少的类别仅有3张样本,如何提升长尾类别准确率至关重要。


 我们通过以下途径解决这些困难


将自然场景中实例级植物识别问题转换成大规模细粒度特征表达问题,提出self-attention pooling进行局部特征增强提升特征表达能力;通过引入Imbalanced Sampler和自适应类别loss解决类别分布不平衡问题;此外,基于混合精度的大规模多机多卡训练能力,实现近三百万数据规模下的快速迭代能力。
实现高效万级在线难样本挖掘,极大提升了特征在复杂场景下的泛化能力。最终凭借领先亚军2.2%的优势,一举获得冠军。

 可应用的场景


实例级的细粒度识别技术可辨别物体间细微的视觉差异从而实现精细的物体识别,广泛应用于商品识别、动植物识别、行人识别、地标识别等领域。


 赛事链接


  1. Workshop:

  https://sites.google.com/view/fgvc8/home 

                         

  1. Challenge:

https://sites.google.com/view/fgvc8/competitions/herbariumchallenge2021  


  1. Kagg leleadboard:

   https://www.kaggle.com/c/herbarium-2021-fgvc8/leaderboard


🏆 冠军 🏆ActivityNet Home Action Genome Challenge

 题目


Workshop:International Challenge on Activity RecognitionTask:Home Action Genome Challenge


 参赛者


少麟,廖越(北航),咏亮,叶盈,篱悠,刘偲(北航)


 技术领域


视频人物交互关系


 比赛背景介绍


Home Action Genome Challenge今年首次在CVPR2021 ActivityNet Workshop举办, 由斯坦福大学李飞飞教授课题组主办,比赛提供了一个大规模多视角的视频数据集,通过多模态视频分析,检测视频中存在的人物交互关系。


 我们的成绩


我们以准确率76.5%的成绩在该项比赛上取得了第一名的成绩,大幅领先第二名的68.4%和第三名的65.7%。

image.png

Home Action Genome Challenge 获奖证书


 任务难点


该任务主要有3个难点:

  1. 数据集的日常家居场景复杂,人体和物体的目标检测难度大
  2. 人物关系包含动作关系和空间关系,关注不同的视觉特征
  3. 每一组人体和物体都存在多个人物关系,评估时必须完全正确才计一次正确


 我们通过以下途径解决这些困难


  1. 采用更好的检测模型:我们采用Swin-Transformer和ResNeSt为backbone的性能SOTA的检测模型,并通过多种数据增强策略训练和多尺度融合推理,提升目标检测的准确率。
  2. 强化人物关系的视觉特征:我们设计了融合两阶段和一阶段关系检测网络的方案,首先将Swin-Transformer融入两阶段关系检测网络进行端到端训练,然后改进一阶段关系检测网络,直接提取<人,物>二元组,再通过cascade结构判定关系,给出<人,物,关系>三元组。策略上,我们通过视觉特征判定动作关系,空间位置作为输入辅助判定空间关系。
  3. 基于统计偏置的生成策略:我们在生成最终的人物交互关系组时,采用了融合<人,物,关系>三者共生概率和统计偏置加权的多种策略。


 可应用的场景


视频人物交互关系检测,检测视频中动态的<人,物,关系>的结构化信息,未来可应用于视频信息结构化,人机交互等应用场景。

 赛事链接


  1. Challenge:https://homeactiongenome.org/results.html
  2. Workshop:http://activity-net.org/challenges/2021/challenge.html
相关文章
|
5月前
|
机器学习/深度学习 算法
【数学建模竞赛】评价类赛题常用算法解析
【数学建模竞赛】评价类赛题常用算法解析
110 0
|
11月前
|
算法
蓝桥杯算法竞赛第一周题型总结
蓝桥杯算法竞赛第一周题型总结
67 0
|
存储 算法 决策智能
(万字,细细阅读)竞赛算法入门必经算法模型(附带题目链接和模板)(下)
(万字,细细阅读)竞赛算法入门必经算法模型(附带题目链接和模板)(下)
75 0
|
12月前
|
缓存 算法 架构师
阿里P9架构师终于把毕生心血而成的分布式高可用算法笔记开源了
说在前面的话 分布式系统无处不在。 一台计算机内部多个互联的处理器组成了一个分布式系统,它们通过“一致性缓存”算法使每个处理器核心看到相同的数据。近三十年来,随着互联网的发展,越来越多的互联网后台系统采用计算机集群的方式来应对海量请求和数据的需求,这个计算机集群也是分布式系统。 为了简化分布式系统的开发,出现了很多为开发者提供分布式框架的开源项目,例如Apache基金会旗下的ZooKeeper项目就是一个应用广泛的分布式框架。 同时,国内也有很多关于如何使用这些分布式框架来搭建应用的书籍,它们极大地推动了分布式系统在国内的应用。我们不仅要知道如何使用这些现成的分布式框架来搭建应用,而且应
|
5月前
|
存储 算法
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
|
5月前
|
机器学习/深度学习 监控 算法
【数学建模竞赛】优化类赛题常用算法解析
【数学建模竞赛】优化类赛题常用算法解析
232 2
|
5月前
|
机器学习/深度学习 算法 vr&ar
【数学建模竞赛】预测类赛题常用算法解析
【数学建模竞赛】预测类赛题常用算法解析
145 0
|
5月前
|
算法 搜索推荐 Java
太实用了!阿里内部强推的超全Java算法学习指南,已被彻底征服
算法和数据结构一直以来都是程序员的基本内功。 数据结构可以看作是算法实现的容器,通过一系列特殊结构的数据集合,能够将算法更为高效而可靠地执行起来。
|
5月前
|
算法 C语言
算法竞赛入门【码蹄集新手村600题】(MT1280-1300)C语言
算法竞赛入门【码蹄集新手村600题】(MT1280-1300)C语言
141 0
|
5月前
|
算法 C语言
算法竞赛入门【码蹄集新手村600题】(MT1260-1280)C语言
算法竞赛入门【码蹄集新手村600题】(MT1260-1280)C语言
157 0
下一篇
无影云桌面