CVPR2021竞赛结果出炉,阿里淘系多媒体算法包揽3项国际冠军-阿里云开发者社区

开发者社区> 淘系技术小助手> 正文

CVPR2021竞赛结果出炉,阿里淘系多媒体算法包揽3项国际冠军

简介: 在刚刚落下帷幕的计算机视觉与模式识别领域顶级会议 CVPR 2021 上,各项国际挑战赛的竞赛结果已全部揭晓。
+关注继续查看

原创 淘系技术 淘系技术 7月1日

640.gif


在刚刚落下帷幕的计算机视觉与模式识别领域顶级会议 CVPR 2021 上,各项国际挑战赛的竞赛结果已全部揭晓。


image.png


阿里巴巴淘系技术多媒体算法&视频内容理解算法团队,一举斩获
🎉 3 项国际冠军 🎉🎉 1 项国际亚军 🎉🎉 1 项国际季军 🎉

技术域包括图像描述生成、大规模实例级物体识别、多模态视频情感理解以及视频人物交互关系。


作为业界多媒体算法相关领域的领先团队,淘系技术的这支队伍着眼打造“端云一体、跨模态理解”的视频内容感知与理解算法平台;重点构建AR直播3D数字场内容智能生产审核检索高层语义理解等技术领域;支持着淘宝直播逛逛点淘等淘系内容业务,通过自研的内容中台为整个阿里集团的内容业务提供能力支持。
以下是本次3项国际冠军的竞赛内容详情&我们的攻克方法。



🏆 冠军 🏆

VizWiz Image Captioning


  题目


Workshop:CVPR 2021 VizWiz Grand Challenge WorkshopTRACK:Image Captioning


  参赛者


宏黎,宏吉,咏亮,玉琦,少麟,定人

  技术领域


图像描述生成


  比赛背景介绍


VizWiz Grand Challenge比赛从2018年开始举办,旨在利用计算机视觉技术帮助有视觉障碍的盲人“看见”世界。
该任务的输入是由盲人拍摄的图像,输出是图像的描述。 
与其他Image Caption数据不同,该比赛的数据是由视觉有障碍的盲人拍摄,图像质量比较差,因此任务难度更高。


  我们的成绩


我们以 CIDEr-D score 94.06的成绩取得第一名,远超第2名的 CIDEr-D score 71.98。
总分也超过去年冠军 IBM 的CIDEr-D score 81.04。
image.png



  任务难点


该任务主要有两个难点:

  1. 图像质量较差:含各种室内、室外的场景,同时由于拍摄者视觉障碍,拍摄图像会出现失焦模糊、拍摄不全、遮挡等问题;
  2. 许多图像描述需要理解图像中的文字,不同物体,颜色等信息,需要OCR,物体检测等细节理解能力。


  我们通过以下途径解决这些困难


  1. 针对VizWiz数据图像特性,采用swin-transformer抽取图像的grid feature替换object feature,以充分表征不同图像区域的特性;
  2. 考虑到OCR及物体信息会对image caption生成产生正向引导,我们抽取了OCR及目标检测类别信息,作为特征补充;
  3. 并不是所有的图像都含有OCR信息,我们采用多种模型互补融合,用视觉模态模型强化那些不含OCR的数据,用视觉+文本(OCR+物体类别)多模态模型强化含有OCR信息较丰富的数据;
  4. 针对多种模型生成的结果,考虑到最终的衡量指标是CIDEr,我们通过self-cider、ocr maximization 多种策略融合的方式进行结果融合。


  可应用的场景


Image captioning需要视觉理解与文本生成,是视觉和NLP任务的结合,可应用于互联网产品的内容标题自动生成,另外也可以帮助盲人和视觉受损用户提升他们对世界的感知能力。


  赛事链接


  1. workshop:

https://vizwiz.org/workshops/2021-workshop/  


  1. challenge:

https://eval.ai/web/challenges/challenge-page/739/overview


🏆 冠军 🏆

Herbarium 2021 - Half-Earth Challenge

  题目


Workshop:The Eight Workshop on Fine-Grained Visual CategorizationTask:fine-grained plant species identification


  参赛者


元年,兰枻,琉潇,有邻,暖雨,济宇,篱悠


  技术领域


大规模实例级物体识别


  比赛背景介绍


Herbarium 2021属于 CVPR2021 FGVC8 workshop的一项比赛,该workshop针对实例级细粒度识别问题,已经连续举办第八届。
Herbarium 2021 比赛数据集为从多个大型植物园收集的美洲、大洋洲等半个地球的6.5W类2.5M张植物样本图片,用于训练植物识别算法,辅助植物学家进行植物识别,发现和保护新物种。
该数据集存在长尾分布,样本数目最少的类别仅有3张样本,同时,不同植物间视觉非常相似,同时同一植物的不同样本有较大差异,给实例级识别带来很大挑战。


  我们的成绩


我们以F1 score 0.757的成绩在该项比赛上取得了第一名的成绩,远超第二名的0.735和第三名的 0.689。

image.png


  任务难点


该任务主要存在以下两个难点:

  1. 植物种类多、类别细,不同植物间视觉非常相似,而同一植物的不同样本存在差异,导致类间易混淆,区分难度大;
  2. 数据集的样本分布不均衡,存在长尾分布,样本数目最少的类别仅有3张样本,如何提升长尾类别准确率至关重要。


  我们通过以下途径解决这些困难


将自然场景中实例级植物识别问题转换成大规模细粒度特征表达问题,提出self-attention pooling进行局部特征增强提升特征表达能力;通过引入Imbalanced Sampler和自适应类别loss解决类别分布不平衡问题;此外,基于混合精度的大规模多机多卡训练能力,实现近三百万数据规模下的快速迭代能力。
实现高效万级在线难样本挖掘,极大提升了特征在复杂场景下的泛化能力。最终凭借领先亚军2.2%的优势,一举获得冠军。

  可应用的场景


实例级的细粒度识别技术可辨别物体间细微的视觉差异从而实现精细的物体识别,广泛应用于商品识别、动植物识别、行人识别、地标识别等领域。


  赛事链接


  1. Workshop:

https://sites.google.com/view/fgvc8/home 

                         

  1. Challenge:

https://sites.google.com/view/fgvc8/competitions/herbariumchallenge2021  


  1. Kagg leleadboard:

https://www.kaggle.com/c/herbarium-2021-fgvc8/leaderboard


🏆 冠军 🏆ActivityNet Home Action Genome Challenge

  题目


Workshop:International Challenge on Activity RecognitionTask:Home Action Genome Challenge


  参赛者


少麟,廖越(北航),咏亮,叶盈,篱悠,刘偲(北航)


  技术领域


视频人物交互关系


  比赛背景介绍


Home Action Genome Challenge今年首次在CVPR2021 ActivityNet Workshop举办, 由斯坦福大学李飞飞教授课题组主办,比赛提供了一个大规模多视角的视频数据集,通过多模态视频分析,检测视频中存在的人物交互关系。


  我们的成绩


我们以准确率76.5%的成绩在该项比赛上取得了第一名的成绩,大幅领先第二名的68.4%和第三名的65.7%。

image.png

Home Action Genome Challenge 获奖证书


  任务难点


该任务主要有3个难点:

  1. 数据集的日常家居场景复杂,人体和物体的目标检测难度大
  2. 人物关系包含动作关系和空间关系,关注不同的视觉特征
  3. 每一组人体和物体都存在多个人物关系,评估时必须完全正确才计一次正确


  我们通过以下途径解决这些困难


  1. 采用更好的检测模型:我们采用Swin-Transformer和ResNeSt为backbone的性能SOTA的检测模型,并通过多种数据增强策略训练和多尺度融合推理,提升目标检测的准确率。
  2. 强化人物关系的视觉特征:我们设计了融合两阶段和一阶段关系检测网络的方案,首先将Swin-Transformer融入两阶段关系检测网络进行端到端训练,然后改进一阶段关系检测网络,直接提取<人,物>二元组,再通过cascade结构判定关系,给出<人,物,关系>三元组。策略上,我们通过视觉特征判定动作关系,空间位置作为输入辅助判定空间关系。
  3. 基于统计偏置的生成策略:我们在生成最终的人物交互关系组时,采用了融合<人,物,关系>三者共生概率和统计偏置加权的多种策略。


  可应用的场景


视频人物交互关系检测,检测视频中动态的<人,物,关系>的结构化信息,未来可应用于视频信息结构化,人机交互等应用场景。

  赛事链接


  1. Challenge:https://homeactiongenome.org/results.html
  2. Workshop:http://activity-net.org/challenges/2021/challenge.html

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
判断Laravel Eloquent获取数据结果集是否为空
在使用Laravel Eloquent模型时,我们可能要判断取出的结果集是否为空,但我们发现直接使用is_null或empty是无法判段它结果集是否为空的。 var_dump之后我们很容易发现,即使取到的空结果集, Eloquent仍然会返回Illuminate\Database\Eloquent\Collection对象实例。
1160 0
定位排查工作流的计算结果数据量不符合预期的方法
本文用两个简化过的实际例子,说明如何排查数据经过同步和计算后发现数据条数对不上的情况。
9170 0
[PeterDLax著泛函分析习题参考解答]第7章 Hilbert 空间结果的应用
1. 对测度是 $\sigma$ 有限的情形证明 Radon-Nikodym 定理.     证明: 设 $\mu,\nu$ 均为 $\sigma$ 有限的非负测度, 则存在分割 $$\bex X=\cup_{i=1}^\infty X_i=\cup_{j=1}^\infty Y_j \eex...
447 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4614 0
ML之Clustering之LPA:LPA算法主要思路、输出结果、代码实现等相关配图之详细攻略
ML之Clustering之LPA:LPA算法主要思路、输出结果、代码实现等相关配图之详细攻略
19 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
3664 0
141
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载