旷视联合智源发布全球最大物体检测数据集Objects365,举办CVPR DIW2019挑战赛

简介: 4 月 16 日,北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI,2018 年 11 月 14 日成立)在北京会议中心召开了「智源学者计划暨联合实验室发布会」。

北京智源人工智能研究院(简称「智源研究院」)是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立,依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团点评、旷视 MEGVII 等北京人工智能领域优势单位共建的新型研发机构


引进培育高端人才、共建联合实验室、建设人工智能社区、加强产学研合作,是智源研究院的主要四项任务。


智源研究院联合旷视,

成立智能模型设计与图像感知联合实验室


智源联合实验室分为两类,分别是与高校院所共建、与优势企业共建。在联合实验室的建设上,智源研究院遵循「成熟一个、启动一个」的原则,择优支持共建,最多可连续支持三年。


「北京智源-旷视智能模型设计与图像感知联合实验室」已通过立项论证,成为北京智源联合实验室首个成功落地的项目,拟由旷视首席科学家、旷视研究院院长孙剑任实验室主任,资深研究员周舒畅任实验室副主任。


微信图片_20211130235628.jpg

旷视首席科学家、旷视研究院院长孙剑


孙剑表示,成立这个实验室,既有国家战略层面的考虑,也是为了解决行业痛点。


2017 年 7 月,国务院发布《新一代人工智能发展规划》,人工智能上升为国家战略。建立开源开放的人工智能开放创新平台,服务企业应用技术开发成为当前该领域的难点。


国家也希望龙头企业,通过打造人工智能开源开放创新平台,调动产学研,社会各类创新创业主体参与共同打造我国自主知识产权的产业生态,提升国际影响力,促进行业整体发展。


而北京市是第一个国家新一代人工智能创新发展试验区,因此希望充分调动北京技术、人才方面优势,通过组织机制创新,通过创新举措,依托龙头行业牵引进行多主体协同创新,打造我国乃至全球技术高地。


现在确实有大量的高校、研究院所、创新创业人员和行业客户,想参与到人工智能创新中,但苦于没有数据,算力或算法等资源,无法施展。


因此,旷视与智源研究院通过联手打造数据集和建设联合实验室,推动整个行业协同创新发展,建设共性技术开放创新平台,构建自主可控产业生态,突破人工智能重大核心共性关键技术,推动行业全面演进。


全球最大的物体检测数据集 Objects365 发布


会上,旷视研究院联合北京智源人工智能研究院发布了全球最大的物体监测数据集 Objects365。

 

微信图片_20211130235632.jpg

Objects365 样例


「我们的目的是打造世界上最大规模的通用物体数据检测集,做到规模大、质量高、泛化能力强。


孙剑介绍,「我们第一批定义在生活中最常见的 365 个类别,比如,室内常见的椅子、桌子、茶杯、瓶子都包含在这个类别中。第一阶段,我们已经标注了超过 60 万张这样的图片,其中这些标注框已经超过了 1000 万。


这个数据集有多大?孙剑将微软 2014 年创建的大规模图像物体检测数据集 COCO 作为参照物,将二者进行了对比,「COCO 是目前最大的、全标注数据集,训练数据大概 12 万,总共数据大概不超过 20 万,其中还有很多数据没有标。我们(Objects365)第一期开放(的)图片数是 COCO 的 5 倍,标注框超过 COCO 的 11 倍。


微信图片_20211130235635.jpg


「我们的目标是,三年内,这个数据集达到 200 万张图片,2400 万个标注框。」孙剑说。


算法优化的上限严重依赖于基准数据集术的质量。为保证标注质量,在打造 Objects365 时,旷视设计出一套科学而严格的标注流程,每一张图片的背后至少会经过 9 名标注工人之手。


此外,作为一个优秀的预训练数据集,Objects365 预训练模型在使用过程中,可以轻松超越现有算法的精度,显著加速收敛过程,表现出极强的泛化能力。在执行 COCO、VOO Det、CityPersons 等检测任务时,在 VOC Seg 和 ADE 等分割任务上均有显著提升。


如何共建联合实验室?

「一个平台、四个突破点」


「北京智源-旷视智能模型设计与图像感知联合实验室 将围绕『一个平台、四个突破点』进行建设。」孙剑介绍道。


「一个平台」是指,建设一体化的数据共享、模型设计和场景测试的开放创新平台。


「四个突破点」是指,在数据方向、模型方向、真实数据测试方向和模型部署方向做技术突破,推进大数据背景下模型架构设计、优化和部署等方面的研究。


「深度学习成不成功,很大程度上取决于数据,很多靠算法带来的提升远低于一个高质量的数据(集)所能带来的提升。」孙剑说。


除了最新发布的 Objects365,旷视此前还发布了大规模拥挤场景人体检测数据集 CrowdHuman 及一些数据标注工具。


实验室将立足旷视算法落地场景丰富、数据积累深厚的优势,以开源数据集、预抽取特征等形式,持续开放通用物体分类、物体检测追踪、人像人形识别属性等视觉问题数据,助力相关领域研究。


针对高搜索效率、高准确率、高灵活性等关键指标,该实验室还将开展支持大计算量模型的新神经网络架构搜索算法(NAS)研究,构建一站式深度模型自动化设计平台等工作。


该平台包括面向特定问题的自动化深度模型设计工具、自动化数据筛选/数据增强工具、自动化深度学习模型优化工具,从而在 Object365 上实现自动训练比纯人工调优精度超过至少一个百分点,消耗卡时不超过三倍的目标。


实验室还将开放众多预训练模型,包括 ResNet、ShuffleNet 这样的基础模型以及 Faster RCNN、Mask RCNN、SSD 检测模型。


近年来,模型架构搜索(NAS)成为了 AI 领域的热门研究方向。


不久前,旷视首次披露了 NAS 新成果:单路径 One-Shot 模型。这是一个简单灵活的通用模型搜索框架,支持构建块(building block)、通道(channel)和混合精度(mixed-precision)多搜索空间联合搜索;支持任意直接度量方法做硬约束(hard constraint),从而满足实际业务要求。据介绍,同等情况下,单路径 One-Shot NAS 的搜索精度和速度均超过目前公开的 FBNet、ProxylessNAS 等 SOTA 框架。


「很多时候,我们把一个技术(算法)落地,真的是不是能在实际数据中做得很好,其实不知道的。实际数据中有一些是非公开数据,不能到真正的场景中去测;另外一些数据涉及到隐私,需要脱敏。」孙剑说,联合实验室的计划是,提供一个实战场景开发和测试环境,大家上交模型,在这个环境中进行测试。


联合实验室将建设人脸抓拍识别、结构化检测、大规模人像比对等验证场景,提供自动分析报告服务,为研究算法调优提供环境。他们还将积极探索低位宽等网络压缩技术,研发高效硬件部署方案,推动模型研究成果迅速投入实用。


针对计算机视觉算法与真实场景适配的问题,实验室还将建设可重现的实景测试环境,并提供自动化的量化错误分析报告,帮助算法迭代。


「通过以上措施,实验室将被打造成为一个开放、贴近实际场景的计算机视觉算法研究实验平台,形成涵盖数据、平台、场景的完整闭环,有利于打造我国自主可控的技术和产业生态,共同助力我国图像感知和计算领域的技术及应用达到国际先进水平。」孙剑表示,实验室平台建成后,将面向高校院所、创业企业等创新创业主体开放,致力推动图像感知与计算领域的协同创新。


DIW2019 挑战赛启动,

3 个赛道冠军将各获 1 万美金奖励


「我们的目标是建设开源社区、打造产业生态。」孙剑说。


除了开放预训练模型,开源数据标注、模型分析、模型自动调优等全套相关工具,他们还将提供实验例程、开源完整的训练代码库,支持高校本科及研究生教学,每年培训学生人数不少于 500 人;每年还会组织围绕平台的国际比赛。


今年,旷视联合智源研究院举办 Detection In the Wild 2019(DIW 2019)挑战赛。


孙剑介绍,DIW 2019 挑战赛是基于 2019 年 CVPR 的 workshop(研讨会),为了推动目标检测技术的发展而设计的,可以改善现有目标检测数据集的类别覆盖不全,标注精度不高,密集场景缺少等问题。


DIW 2019 挑战赛共有三个赛道:


  1. Objects365 赛道:选手利用公开的 365 种类别,60 万张图片超过 1000 万个框的完整训练集对检测模型进行训练;在 3 万张图片构成的验证集上调试算法,并在 10 万张图片构成的测试集上进行最终挑战。
  2. Objects365 小赛道:从 Objects365 数据集中挑选出 65 个类别,选手可以用 1 万张图片进行模型训练。
  3. CrowdHuman 赛道:为了解决现实生活中的遮挡问题,其算法的提升将会推动人体检测算法落地。届时,选手将基于专门为了密集场景人体检测设计的 CrowdHuman 数据集进行训练,数据集包含有丰富标注信息和多种场景。


挑战赛已于发布会当天启动;5 月 10 日,将开放测试集;6 月 12 日,结果提交截止;最终结果将在 6 月 17 日(美国当地时间)公布。每个赛道的冠军将获得 1 万美金奖励,优胜队伍将被邀请至 CVPR 的研讨会上做经验分享。


「智源学者计划」启动,

每人每年至少可获 50 万支持


发布会当天,智源研究院还启动了「智源学者计划」。


「『智源学者计划』的目标,就是要找到最好的人,给他自由支配的经费,提供他需要的资源,支持开展人工智能领域特定方向上的重大基础问题研究,或者开展前沿问题的自由探索。」黄铁军院长说。


「智源学者计划」将依托北京大学、清华大学、中科院等优势高校院所,以及旷视等骨干企业研究院,对智源科学家首席(CS)、智源研究项目经理(PM)、智源研究员(PI)和智源青年科学家(38 岁以下)四类人才进行重点支持。


经过提名、初评、审议等流程,已经遴选出首批智源学者候选人,共 21 人,并即将启动公示程序。


据悉,首批青年科学家推选工作开展以来,清华、北京各单位专家共计推选了 54 名候选人,参加答辩 42 人,经专家评审,最终选出了 9 名。年级最轻的一位仅 28 岁,是旷视研究院模型研究组负责人张祥雨博士。


在官网上进行一个月公示后,若无意外,智源研究院将与他们签订聘任协议。


届时,智源研究院将直接向他们支付费用,不用走单位的人事体制。黄院长说,「我们看重他是一个有潜力的人,我们就直接给他,大概就是不低于 50 万的每年的支持力度(每个人)。


这些智源学者不需要在智源研究院办公,还在原单位继续从事学术研究, 成果也全部属于其所在单位,「研究院不拥有也不期望去获得任何知识产权」,「因为他做的是人工智能,是符合国家的战略方向,是符合北京市的方向,所以我们给他支持。」黄院长说。


此外,这些智源学者在科研工作中所需要的经费,也会获得研究院支持。黄院长表示,只要不用到违规,怎么用,完全由自己决定。


黄院长还表示,智源学者的申报不是每年只有一次,而是不分批次,只要是符合要求的人才,通过申报程序,可以随时进入研究院支持的范围。


微信图片_20211130235638.jpg


今年,智源研究院将计划遴选智源学者 100 人,大概覆盖 5 到 7 个重大方向,其中,青年科学家 30-50 人。2020 年和 2021 年再分别增加 100 人,智源学者总体规模保持在 300 人左右。




本文为机器之心报道,转载请联系本公众号获得授权

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
6月前
|
机器学习/深度学习 人工智能 算法
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
|
8月前
|
算法 数据可视化 自动驾驶
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
112 0
|
10月前
|
机器学习/深度学习 存储 达摩院
达摩院创新三维算法,论文成果入选顶会CVPR 2022
达摩院创新三维算法,论文成果入选顶会CVPR 2022
127 0
|
11月前
|
机器学习/深度学习 人工智能 监控
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集
115 0
|
11月前
|
机器学习/深度学习 达摩院 自然语言处理
ICASSP2023|达摩院语音实验室入选论文全况速览
近日,语音技术领域国际会议ICASSP公布了本届论文审稿结果,阿里巴巴达摩院语音实验室有14篇论文被大会收录。本次被接收的论文研究方向涵盖语音识别、语音唤醒、语音增强、说话人日志、语义理解、多模态预训练等。 ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学,语音和信号处理会议,是IEEE信号处理协会组织的年度旗舰会议。历届的ICASSP会议都备受全球信号处理领域研究学者的广泛关注,ICASSP2023将于6月4号至6月10号于希腊举办。
474 0
|
11月前
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
178 0
|
11月前
|
编解码 人工智能 监控
CVPR 2022 ActivityNet竞赛冠军:中科院深圳先进院提出高低分双模态行为识别框架
CVPR 2022 ActivityNet竞赛冠军:中科院深圳先进院提出高低分双模态行为识别框架
AI:2020年6月22日北京智源大会演讲分享之认知神经基础专题论坛——15:00-15:40刘嘉教授《From Representation to Comp: the Cognitive N》
AI:2020年6月22日北京智源大会演讲分享之认知神经基础专题论坛——15:00-15:40刘嘉教授《From Representation to Comp: the Cognitive N》
AI:2020年6月22日北京智源大会演讲分享之认知神经基础专题论坛——15:00-15:40刘嘉教授《From Representation to Comp: the Cognitive N》
|
机器学习/深度学习 存储 人工智能
阿里云机器学习平台PAI论文入选国际顶会ASPLOS 2022
近日,阿里云机器学习PAI主导的论文《机器学习访存密集计算编译优化框架AStitch》入选国际顶会ASPLOS 2022,论文通过编译优化的手段来自动化地提高机器学习任务的执行效率。此次入选意味着阿里云机器学习平台PAI自研的深度学习编译优化系统达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。