Google AI推出新的大规模目标检测挑战赛

简介: 来源 | Towards Data Science整理 | 磐石就在几天前,Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛。

来源 | Towards Data Science 整理 | 磐石

就在几天前,Google AI在Kaggle上推出了一项名为Open Images Challenge的大规模目标检测竞赛。当今计算机视觉社区已经很长一段时间没有进行如此新的大规模竞赛,这对视觉研究者来说绝对是一个令人振奋的消息。

连续多年ImageNet一直是计算机视觉领域的“黄金标准型”竞赛,并且吸引了大量团队每年都参与竞争,以获得在ImageNet数据集上最低的错误率。同时,深度学习技术的突破更是使得图像识别任务取得了令人瞩目的巨大进步,甚至超过了人类的准确度。

ImageNet是一个大规模的视觉识别竞赛,有着1000个不同的类别和120万张训练图像。如此大规模的数据使ImageNet变得非常具有挑战性。通过这个比赛,除了学习到如何很好地分类图像之外,还得到了很重要的一点就是我们得到了可以用于其他视觉任务的特征提取器。在ImageNet上预训练的特征提取网络被运用到了许多其他计算机视觉任务,包括目标检测分割跟踪等等。此外,这些特征提取网络的设计同样也可以适用在那些其他的视觉任务上。例如,shortcut connections(跳连)最初就是来自2015年获奖的ImageNet挑战团队,并且现在已经被用于解决计算机视觉任务的大量卷积神经网络结构中。这是一件很有意义的事,大家在一个挑战赛中设计的网络可以被应用到更复杂的任务上。

ImageNet上的错误率历史记录(显示每年团队最佳结果,每年最多10个条目)

Google AI在Kaggle上推出的新一轮目标检测竞赛是正朝着这个积极方向迈进。到目前为止,COCO检测挑战一直是目标检测的重要挑战之一。但是,与ImageNet相比,它规模较小。COCO只有80个类别和330K图像。它并不能达到人们在现实世界中那么复杂的场景想要实现的目标。从业者往往也会发现在自然环境下目标检测会变得极具挑战性。相比而言,ImageNet至少有着足够大的数据集和足够多的类,它对于预训练和使用网络进行迁移学习都非常有用。也许在足够大的数据集上,训练得到的目标检测器在迁移学习时会同样有着足够好表现。

Google AI已公开发布了Open Images数据集v4版本。kaggle上由Google AI发起的比赛的数据集就是基于这个数据集,但又不是完全相同的。另外,Open Images同样遵循着PASCAL VOC,ImageNet和COCO的传统,而且规模空前

Open Images Challenge基于Open Images数据集。竞赛训练集包括:

  • 1.7Million训练图像,500个类别,12Million边界框标注
  • 具有多个目标的复杂场景图像 - 每个图像平均7个标注框
  • 高度多样化的图像,包含像“男士软呢帽(fedora)”和“雪人(snowman)”这样的全新目标
  • 包含描述Open Images类别之间关系的类别层次结构(class hierarchy)信息

除了目标检测赛道(Google AI Open Images - Object Detection Track)之外,比赛还包括视觉关系检测赛道(Google AI Open Images - Visual Relationship Track),用于检测特定关系中的物体对。例如“女人弹吉他”,“桌上的啤酒”,“车内的狗”,“男人拿着咖啡”等等。大家可以在此处https://storage.googleapis.com/openimages/web/factsfigures.html找到有关数据集的更多信息。这是一个很棒的数据集,在上边的链接中你会发现它的丰富性。在这里https://storage.googleapis.com/openimages/2018_04/bbox_labels_600_hierarchy_visualizer/circle.html大家可以看到数据集全部600个类别的层次结构关系。大家可以观察到这是一个不均匀且非常广泛的类别分布。这意味着大家不能天真地统一对待所有类别做处理,大家需要考虑到类别的分布。这一点也更加贴近人们现实世界中的场景。这个数据集的以上特性无疑使我们更接近于创建对于自然场景更鲁棒的模型。

这个挑战赛的奖品也非常诱人,不但有着目标检测赛道30,000美元与视觉关系识别20000美元的奖金池,此外挑战赛的结果还会在2018年欧洲计算机视觉会议(ECCV2018)的研讨会上公布。ECCV2018将在德国慕尼黑举行。

这个比赛是在Kaggle上举办的,很赞。挑战的核心(kernel)往往最终成为从竞争对手看到不同方法的知识来源。如此大规模且复杂的挑战很有希望带来可以应用于计算机视觉领域的最佳研究与一些新想法,就像ImageNet一样。

希望大家在这场激烈的比赛中学到了一些新的和有用的东西,并对计算机视觉和AI的未来感到兴奋。

 

比赛直达链接:

[1] 目标检测(Google AI Open Images - Object Detection Track):https://www.kaggle.com/c/google-ai-open-images-object-detection-track

[2] 视觉关系识别(Google AI Open Images - Visual Relationship Track):https://www.kaggle.com/c/google-ai-open-images-visual-relationship-track

目录
相关文章
|
5月前
|
人工智能 监控 算法
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含9000张已标注、已划分的行人图像,适用于人群计数与目标检测任务。支持YOLO等主流框架,涵盖街道、商场等多种场景,标注精准,结构清晰,助力AI开发者快速训练高精度模型,应用于智慧安防、人流统计等场景。
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
|
5月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
5月前
|
机器学习/深度学习 人工智能 监控
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含5000张已标注牛行为图片,涵盖卧、站立、行走三类,适用于YOLO等目标检测模型训练。数据划分清晰,标注规范,场景多样,助力智慧牧场、健康监测与AI科研。
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
|
12月前
|
人工智能 运维 监控
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
唯有通过全行业的协同努力,加强整体、完善的网络安全可观测建设,才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信,在攻克这些网络安全难题之后,AI 创新将迎来更加安全、灿烂的未来。
|
7月前
|
机器学习/深度学习 人工智能 自动驾驶
交通标识与信号灯数据集(1000张图片已划分、已标注)| AI训练适用于目标检测任务
在智能驾驶与智慧交通的研究中,交通标识与信号灯识别 是最基础且最关键的任务之一。为了方便研究人员和开发者快速上手目标检测模型训练,本数据集提供了 1000张交通场景图片,并且已经按照目标检测任务的需求完成了 数据标注与划分。该数据集可直接应用于 YOLO、Faster R-CNN、SSD 等深度学习模型的训练与测试。
交通标识与信号灯数据集(1000张图片已划分、已标注)| AI训练适用于目标检测任务
|
6月前
|
机器学习/深度学习 存储 人工智能
AI 视频检测:重构食品质检体系,破解大规模生产品质难题
AI视频检测技术助力食品行业质检升级,通过实时感知、精准识别与数据驱动,实现从加工到成品的全流程智能管控,解决传统质检效率低、标准不统一等问题。
838 0
|
10月前
|
人工智能 自然语言处理 Prometheus
不懂 PromQL,AI 智能体帮你玩转大规模指标数据分析
PromQL AI 智能体上线。本文将从自然语言生成 PromQL 实践视角,探讨如何构建知识库、与大模型进行交互、最终生成符合需求的 PromQL 语句。本文还介绍了在 MCP 和云监控控制台下使用 AI 智能体的用例。
717 51
|
人工智能 运维 监控
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
在近来发生的 DeepSeek 遭遇的安全事件中,我们可以看到当前人工智能行业在网络安全方面的脆弱性,同时也为业界敲响了警钟。唯有通过全行业的协同努力,加强整体、完善的网络安全可观测建设,才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信,在攻克这些网络安全难题之后,AI 创新将迎来更加安全、灿烂的未来。
780 87
|
10月前
|
机器学习/深度学习 人工智能 算法
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型
本文介绍了如何使用 Python 和 YOLO v8 开发专属的 AI 视觉目标检测模型。首先讲解了 YOLO 的基本概念及其高效精准的特点,接着详细说明了环境搭建步骤,包括安装 Python、PyCharm 和 Ultralytics 库。随后引导读者加载预训练模型进行图片验证,并准备数据集以训练自定义模型。最后,展示了如何验证训练好的模型并提供示例代码。通过本文,你将学会从零开始打造自己的目标检测系统,满足实际场景需求。
10370 1
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型
|
存储 人工智能 NoSQL
表格存储:为 AI 注入“记忆”,构建大规模、高性能、低成本的 Agent Memory 数据底座
本文探讨了AI Agent市场爆发增长背景下的存储需求,重点介绍了Tablestore在Agent Memory存储中的优势。2025年被视为AI Agent市场元年,关键事件推动技术发展。AI Agent的存储分为Memory(短期记忆)和Knowledge(长期知识)。Tablestore通过高性能、低成本持久化存储、灵活的Schemaless设计等特性满足Memory场景需求;在Knowledge场景中,其多元索引支持全文、向量检索等功能,优化成本与稳定性。实际案例包括通义App、某浏览器及阿里云多项服务,展示Tablestore的卓越表现。最后邀请加入钉钉群共同探讨AI技术。
2556 15

推荐镜像

更多