中国团队再次称雄AI大赛,微软谷歌FB都甩在身后

简介:
本文来自AI新媒体量子位(QbitAI)

又一次!中国团队拿下一项AI赛事的多个大奖!

8天的计算机视觉顶会ICCV 2017在威尼斯悄然落幕,期间中国团队在物体检测、人体关键点检测等竞争激烈的比赛中击败了谷歌、微软、Facebook等国际巨头AI实验室。

ICCV 2017 “Joint COCO and Places Recognition Challenge” Workshop中,一共公布了7项竞赛的结果。

中国AI创业公司旷视科技(Face++)在MS COCO物体检测人体关键点检测,以及Places物体分割三项比赛中击败微软、谷歌、Facebook等对手,夺得了第一名。


 旷视科技获COCO物体检测、人体关键点检测冠军;UCenter获COCO物体分割冠军

而在MS COCO物体分割检测中,由北京大学和香港中文大学联合组成的UCenter队(也可以理解为商汤科技队)夺得冠军,旷视科技(Face++)团队获得了第二名。

Places场景分割挑战赛的冠军由中科院自动化所和京东联合建立的CASIA_IVA_JD队拿下,第二名是今日头条的WinterIsComing队。


参赛选手总结

量子位还得到一份旷视Face++此次参赛主力队员的一份赛后总结。这份总结应该是出自大三学生肖特特,他还特别提到队友罗睿轩和姜博睿。转发如下:

拿奖拿到手软

终于,可以自豪地宣布,我们Face++团队在备受关注的MSCOCO和由MIT牵头的Places比赛中参与四个项目,击败Facebook, Google, Microsoft, 国内外高校和企业等,拿下三项世界冠军一项第二名。其中我作为核心成员之一参与了COCO Detection & Instance Segmentation与Places Instance Segmentation三个项目,并为COCO Skeleton做了一点点微小的贡献


关于比赛

一支团队能同事拿下那么多冠军是史无前例的。在最重要的COCO Detection中,我们赢了第二名近2个绝对百分点。在Places比赛,我们在准备不充分的情况下(我的错),赢了第二名Google4.5个绝对百分点。为我们的队伍感到自豪。


“Face++模式”

对于我来说,赢了是团队好输了当然是自己做得不够好。这次比赛,我特别要介绍旷视的platform组。他们负责维护和建立上千块gpu的集群,支持各种功能。而我们,动辄要求几十上百块gpu跨机训练,给他们造成了前所未有的压力。但是,他们每次几乎立即处理问题,以最快的速度解决。这是我见过的最敬业,效率最高的team. 每一块奖牌后面都应该有他们的名字。


“姚班模式”

我特别想提一下,在两个Segmentation比赛中,我的两位室友,罗睿轩和姜博睿,比我做出了更大贡献。他们也是我的ACM队友。这是我一直追求的姚班模式。作为朋友,室友。大家每时每刻、自发地讨论学术问题,取得比赛好成绩,或者一起发表论文。很高兴我在身体力行,为这个模式做了一些微小的贡献。感谢室友的不杀之恩,因为我实在太push了…把人从床里拖出来review代码这事发生了不止一次。比赛结束前每天熬夜到三四点,第二天接着干。很不容易,Good job!


关于ICCV

第一次在国际会议做Presentation, 居然上台后一点都不紧张。我要了一个手持麦克风,借了个遥控器,成为了唯一一个不在讲台后讲slides的人 XD. 被偶像级前辈Ross Girshick夸报告讲得非常好,真的特别开心。


关于research

准备今年的CVPR和明年ECCV submissions. 手里攒了不少东西。借用Kaiming的一句话”涨3个点很容易,涨3个点讲个故事也不难,最难的是想一个idea, 并且指出它能涨3个点”. 跟这些人交流得越多,我越来越知道自己应该做什么样的工作,什么样的工作是有意义的,值得尊敬的。希望在明年ECCV投稿的工作中,能看到自己一点点往这个方向的努力。


有趣的事情

  1. 与Ross和Kaiming聊了一会,我表达了对两位role models的敬佩,讲我一直在向各位学习。Ross大神说你明年要是能来FAIR实习就太好了。我们没准还能向你学习呢。脑子一下空白了…回答,现在不够格和各位一起工作,phd时一定一定会申你的intern :)
  2. 三年级本科生的身份倒是能让大家迅速记住你 23333 真的比平均年龄小了太多。。
  3. 感谢NVIDIA送了一块TITAN XP。以为还是之前的一万美元呢哈哈

(插播,此处的Ross和Kaiming,可以参考量子位之前的报道

另外,据商汤科技透露他们的队伍也是实习生担任主力。

历史战绩

物体检测这个项目,是MS COCO大赛的重头戏,从2015年第一届就存在,第二、三届中依然延续了下来。

其实,拿下2015年物体检测项目冠军的MSRA团队,就是孙剑在微软亚洲研究院带领的一组研究员,包括何恺明、任少卿、代季峰和Xiangyu Zhang,所用的算法,是何恺明和RBG大神第一次合作的Faster R-CNN。

2016年的物体检测冠军,是谷歌研究院的G-RMI队,而用的算法,依然是Faster R-CNN。

2015年第一届MS COCO大赛中除了物体检测,还有个生成图片说明(Captioning Challenge)项目,当时夺冠的谷歌团队,与人类baseline相比依然差了一大截,这个比赛项目也没能继续下去。

在2016年,物体检测之外的比赛项目变成了人体关键点检测,当时夺冠的团队来自CMU。

COCO+Places 2017简介

MS COCO是一个已经举办了三年,在业内颇有名气的比赛。今年的MS COCO共有四个项目,包括物体检测、物体分割、人体关键点检测和场景分割。

和MS COCO联合公布结果的Places今年还是第一届,由MIT和CMU牵头,包括物体分割、场景分割和边缘检测三个项目,旨在深度理解图像场景。


COCO挑战赛

COCO是一个图像数据集,被设计用来推动物体检测研究,特别是检测上下文中的物体。其中提供的注释包括80个分类的物体像素级分割,人体实例的关键点注释,91个类别的背景语义分割。

大赛具体包括:

COCO检测挑战

COCO 2017检测挑战赛已在推动物体检测领域的进步。参赛队伍要在两类物体检测挑战中竞争:使用包围盒(bounding box)输出或者物体分割输出。


COCO关键点挑战

这项挑战需要在复杂环境下对人体关键点进行定位。这项挑战需要在检测出人体的同时,对关键点进行定位标注。


COCO背景语义分割挑战

今年的挑战中,已经给出人、汽车、大象等物体的分类,所以重点主要在背景分类的部分,例如草坪、墙壁、天空等。


相关详情可以访问:

http://cocodataset.org/

Palces挑战赛


Places挑战的数据,是一个像素级标注的图像数据及ADE20K。这个数据集中有2万张图像用于训练,2千张用于验证,3千张用于测试。

数据集地址在此:

http://groups.csail.mit.edu/vision/datasets/ADE20K/

Places 2017的挑战主要有三个任务:场景分割(scene parsing)、物体分割(instance segmentation)、边缘检测(semantic boundary detection)。


详细信息可以访问这里:

http://placeschallenge.csail.mit.edu/

本文作者:李林 假装
原文发布时间:2017-10-30 
相关文章
|
11天前
|
人工智能 Linux API
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
PromptWizard 是微软开源的 AI 提示词自动化优化框架,通过自我演变和自我适应机制,迭代优化提示指令和上下文示例,提升大型语言模型(LLMs)在特定任务中的表现。本文详细介绍了 PromptWizard 的主要功能、技术原理以及如何运行该框架。
100 8
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
130 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
28天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
162 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
8天前
|
传感器 人工智能 安全
杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了
杨笛一团队最新研究揭示,简单弹窗可操控AI智能体,使其在执行任务时陷入混乱。实验显示,在OSWorld和VisualWebArena环境中,攻击成功率分别达86%和60%以上。该发现强调了AI安全的重要性,提醒我们在享受AI便利的同时需警惕潜在风险。研究指出,弹窗设计中的四个关键要素(注意力钩子、指令、信息横幅、ALT描述符)对攻击成功至关重要,并建议通过安全训练、人类监督和环境感知提升防御能力。
35 13
|
20天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
67 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
8天前
|
存储 人工智能 安全
微软推出Copilot Vision AI助手赋能网页浏览与决策
微软推出Copilot Vision AI助手赋能网页浏览与决策
|
2月前
|
机器学习/深度学习 数据中心 芯片
【AI系统】谷歌 TPU 历史发展
本文详细介绍了谷歌TPU的发展历程及其在AI领域的应用。TPU是谷歌为加速机器学习任务设计的专用集成电路,自2016年首次推出以来,经历了多次迭代升级,包括TPU v1、v2、v3、v4及Edge TPU等版本。文章分析了各代TPU的技术革新,如低精度计算、脉动阵列、专用硬件设计等,并探讨了TPU在数据中心和边缘计算中的实际应用效果,以及谷歌如何通过TPU推动移动计算体验的进步。
82 1
【AI系统】谷歌 TPU 历史发展
|
18小时前
|
人工智能 数据处理 C#
AI Dev Gallery:微软开源 Windows AI 模型本地运行工具包和示例库,助理开发者快速集成 AI 功能
微软推出的AI Dev Gallery,为Windows开发者提供开源AI工具包和示例库,支持本地运行AI模型,提升开发效率。
31 13
|
28天前
|
人工智能
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
|
30天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
46 7