Google AI推出新的大规模目标检测挑战赛

简介: 来源 | Towards Data Science整理 | 磐石就在几天前,Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛。

来源 | Towards Data Science 整理 | 磐石

就在几天前,Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛。当今计算机视觉社区已经很长一段时间没有进行如此新的大规模竞赛,这对视觉研究者来说绝对是一个令人振奋的消息。

连续多年ImageNet一直是计算机视觉领域的“黄金标准型”竞赛,并且吸引了大量团队每年都参与竞争,以获得在ImageNet数据集上最低的错误率。同时,深度学习技术的突破更是使得图像识别任务取得了令人瞩目的巨大进步,甚至超过了人类的准确度。

ImageNet是一个大规模的视觉识别竞赛,有着1000个不同的类别和120万张训练图像。如此大规模的数据使ImageNet变得非常具有挑战性。通过这个比赛,除了学习到如何很好地分类图像之外,还得到了很重要的一点就是我们得到了可以用于其他视觉任务的特征提取器。在ImageNet上预训练的特征提取网络被运用到了许多其他计算机视觉任务,包括目标检测分割跟踪等等。此外,这些特征提取网络的设计同样也可以适用在那些其他的视觉任务上。例如,shortcut connections(跳连)最初就是来自2015年获奖的ImageNet挑战团队,并且现在已经被用于解决计算机视觉任务的大量卷积神经网络结构中。这是一件很有意义的事,大家在一个挑战赛中设计的网络可以被应用到更复杂的任务上。

ImageNet上的错误率历史记录(显示每年团队最佳结果,每年最多10个条目)

Google AI在Kaggle上推出的新一轮目标检测竞赛是正朝着这个积极方向迈进。到目前为止,COCO检测挑战一直是目标检测的重要挑战之一。但是,与ImageNet相比,它规模较小。COCO只有80个类别和330K图像。它并不能达到人们在现实世界中那么复杂的场景想要实现的目标。从业者往往也会发现在自然环境下目标检测会变得极具挑战性。相比而言,ImageNet至少有着足够大的数据集和足够多的类,它对于预训练和使用网络进行迁移学习都非常有用。也许在足够大的数据集上,训练得到的目标检测器在迁移学习时会同样有着足够好表现。

Google AI已公开发布了Open Images数据集v4版本。kaggle上由Google AI发起的比赛的数据集就是基于这个数据集,但又不是完全相同的。另外,Open Images同样遵循着PASCAL VOC,ImageNet和COCO的传统,而且规模空前

Open Images Challenge基于Open Images数据集。竞赛训练集包括:

  • 1.7Million训练图像,500个类别,12Million边界框标注
  • 具有多个目标的复杂场景图像 - 每个图像平均7个标注框
  • 高度多样化的图像,包含像“男士软呢帽(fedora)”和“雪人(snowman)”这样的全新目标
  • 包含描述Open Images类别之间关系的类别层次结构(class hierarchy)信息

除了目标检测赛道(Google AI Open Images - Object Detection Track)之外,比赛还包括视觉关系检测赛道(Google AI Open Images - Visual Relationship Track),用于检测特定关系中的物体对。例如“女人弹吉他”,“桌上的啤酒”,“车内的狗”,“男人拿着咖啡”等等。大家可以在此处https://storage.googleapis.com/openimages/web/factsfigures.html找到有关数据集的更多信息。这是一个很棒的数据集,在上边的链接中你会发现它的丰富性。在这里https://storage.googleapis.com/openimages/2018_04/bbox_labels_600_hierarchy_visualizer/circle.html大家可以看到数据集全部600个类别的层次结构关系。大家可以观察到这是一个不均匀且非常广泛的类别分布。这意味着大家不能天真地统一对待所有类别做处理,大家需要考虑到类别的分布。这一点也更加贴近人们现实世界中的场景。这个数据集的以上特性无疑使我们更接近于创建对于自然场景更鲁棒的模型。

这个挑战赛的奖品也非常诱人,不但有着目标检测赛道30,000美元与视觉关系识别20000美元的奖金池,此外挑战赛的结果还会在2018年欧洲计算机视觉会议(ECCV2018)的研讨会上公布。ECCV2018将在德国慕尼黑举行。

这个比赛是在Kaggle上举办的,很赞。挑战的核心(kernel)往往最终成为从竞争对手看到不同方法的知识来源。如此大规模且复杂的挑战很有希望带来可以应用于计算机视觉领域的最佳研究与一些新想法,就像ImageNet一样。

希望大家在这场激烈的比赛中学到了一些新的和有用的东西,并对计算机视觉和AI的未来感到兴奋。

 

比赛直达链接:

[1] 目标检测(Google AI Open Images - Object Detection Track):https://www.kaggle.com/c/google-ai-open-images-object-detection-track

[2] 视觉关系识别(Google AI Open Images - Visual Relationship Track):https://www.kaggle.com/c/google-ai-open-images-visual-relationship-track

目录
相关文章
|
3天前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
25天前
|
机器学习/深度学习 人工智能 运维
2023 Google I/O Connect Shanghai 参会总结:云,AI 与 Web
2023 Google I/O Connect Shanghai 参会总结:云,AI 与 Web
2023 Google I/O Connect Shanghai 参会总结:云,AI 与 Web
|
25天前
|
人工智能 自然语言处理 安全
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
|
10天前
|
机器学习/深度学习 人工智能 算法
AI计算机视觉笔记十一:yolo5+Deepsort实现目标检测与跟踪(CPU版)
DeepSORT是一种基于深度学习的计算机视觉跟踪算法,扩展了SORT算法,通过添加外观描述符减少身份切换,提高跟踪效率。本文档提供了DeepSORT环境搭建步骤,包括创建虚拟环境、安装依赖及解决常见错误等,最终实现人员和车辆的跟踪计数功能。适合无GPU设备的学习者参考。
|
17天前
|
人工智能 分布式计算 数据处理
Big Data for AI实践:面向AI大模型开发和应用的大规模数据处理套件
文叙述的 Big Data for AI 最佳实践,基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。
|
1月前
|
人工智能 JSON 自然语言处理
我的Google Vertex AI实践经验分享
忙碌的开发者分享了使用Google Vertex AI的实践经验。从复杂的初始设置到微调模型时的手动资源分配,作者经历了种种挑战,包括高昂的成本与不足的文档支持。尽管如此,Vertex AI在图像识别和自然语言处理方面展现出强大能力。作者希望反馈能帮助Google改进服务,使之更加用户友好。
40 2
|
2月前
|
人工智能 PyTorch TensorFlow
分布式训练:大规模AI模型的实践与挑战
【7月更文第29天】随着人工智能的发展,深度学习模型变得越来越复杂,数据集也越来越大。为了应对这种规模的增长,分布式训练成为了训练大规模AI模型的关键技术。本文将介绍分布式训练的基本概念、常用框架(如TensorFlow和PyTorch)、最佳实践以及可能遇到的性能瓶颈和解决方案。
305 2
|
3月前
|
人工智能 缓存 安全
22.5 万奖金池丨Higress AI 网关编程挑战赛启动
2024 天池云原生编程挑战赛 6 月 12 日正式启动,8 月 28 日线下决赛,9 月公布最终参赛结果,奖金池合计 22.5 万,共计三个赛道,面向全社会开放。
617 13
|
2月前
|
人工智能 自然语言处理 数据挖掘
详解:Google AI Gemini中文版本(基于API 开发实现对话)
谷歌旗下的人工智能应用Gemini,自问世以来凭借其强大的计算能力和高效的处理性能,迅速成为全球用户的宠儿。作为一款由世界顶尖科技公司开发的产品,Gemini不仅在语言处理、图像识别、数据分析等领域表现出色,还在多种复杂任务中展现了其卓越的智能决策能力。然而,由于网络限制等问题,国内用户往往无法直接访问和使用Gemini的网站,这也导致了许多技术爱好者和专业人士未能亲身体验这一先进技术所带来的便利和强大功能。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Google gemini官网入口是什么_谷歌 AI gemini国内怎么使用
随着人工智能(AI)技术的迅猛发展,各大科技公司不断推出更为先进的AI模型,推动技术的边界。Google开发的Gemini便是其中的佼佼者。作为一款大型语言模型(LLM),Gemini旨在处理多种自然语言处理(NLP)任务,如文本生成、翻译、摘要和对话生成。Gemini结合了最新的研究成果和技术,显著提高了自然语言处理的准确性和效率。