CVPR 2022数据集汇总|包含目标检测、多模态等方向

简介: 本文收集汇总了目前CVPR 2022已放出的一些数据集资源。

M5Product Dataset


M5Product 数据集是一个大规模的多模态预训练数据集,具有针对电子产品的粗粒度和细粒度注释。


  • 600 万个多模态样本、5k个属性和2400 万个值


  • 5 种模式-图像 文本 表 视频 音频


  • 600 万个类别注释,包含6k个类别


  • 广泛的数据源(100 万商户提供)


c71b5939e9f24b348f25c1aa67d1e175_tplv-k3u1fbpfcp-zoom-1.jpg

Ego4D


在全球 74 个地点和 9 个国家/地区收集的大规模、以自我为中心的数据集和基准套件,包含超过 3,670 小时的日常生活活动视频。使用七种不同的现成头戴式摄像机捕获数据:GoPro、Vuzix Blade、Pupil Labs、ZShades、OR-DRO EP6、iVue Rincon 1080 和 Weeview。除了视频,部分 Ego4D 还提供其他数据模式:3D 扫描、音频、凝视、立体、多个同步的可穿戴相机和文本叙述。

aed0654571fd4670a493005248968c5d_tplv-k3u1fbpfcp-zoom-1.jpg

Daily Multi-Spectral Satellite Dataset


DynamicEarthNet 数据集包含每日 Planet Fusion 图像,以及两年内全球 75 个地区的每月土地覆盖类别。七个土地覆盖类别以时间一致的方式手动注释。还提供了 Sentinel 2 图像。该数据集是第一个大规模的多类和多时态变化检测基准,我们希望它能促进地球观测和计算机视觉领域的多时态研究新浪潮。

1e1875cbb02042ad976e302aa8e60a74_tplv-k3u1fbpfcp-zoom-1.jpg欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读


VCSL (Video Copy Segment Localization) dataset


与现有的受视频级标注或小规模限制的复制检测数据集相比,VCSL 不仅具有两个数量级的片段级标记数据,16 万个真实视频副本对包含超过 28 万个本地复制片段对,而且涵盖各种视频类别和广泛的视频时长。每个收集的视频对中的所有复制片段都是手动提取的,并附有精确注释的开始和结束时间戳。

69dcc259ac954699baa744bd68700433_tplv-k3u1fbpfcp-zoom-1.jpg

Rope3D


Rope3D目标检测数据集是首个同时具有图像和点云3D联合标注的大规模、多视角的路侧数据集,共50009帧图像数据以及对应的2D&3D标注结果。基于该数据集,可以进行路端单目3D检测任务的研究。

06034d54d6914c15ac6c13606fd246ee_tplv-k3u1fbpfcp-zoom-1.jpg

EDS 数据集


EDS 数据集针对由机器硬件参数引起的难以察觉的域间偏移问题研究,包含了来自 3 台不同 X 光机器的 14219 张图片, 其中 10 类物品, 共计 31655 个目标实例,均由专业标注人员进行标注。


FineDiving


本数据集收集了奥运会、世界杯、世锦赛以及欧锦赛的跳水项目比赛视频。每个比赛视频都提供了丰富的内容,包括所有运动员的跳水记录、不同视角的慢速回放等。

我们构建了一个由语义和时间结构组织的细粒度视频数据集,其中每个结构都包含两级注释。


对于语义结构,动作级标签描述了运动员的动作类型,步骤级标签描述了过程中连续步骤的子动作类型,其中每个动作过程中的相邻步骤属于不同的子动作类型。子动作类型的组合产生动作类型。在时间结构中,动作级标签定位运动员执行的完整动作实例的时间边界。在此注释过程中,我们丢弃所有不完整的动作实例并过滤掉慢速播放。步骤级标签是动作过程中连续步骤的起始帧。

75da99935ac3463cafb8b87942e101ee_tplv-k3u1fbpfcp-zoom-1.jpg

PIAA 数据库


个性化图像美学评估 (PIAA) 由于其高度主观性而具有挑战性。人们的审美取决于多种因素,包括形象特征和主体性格。现有的 PIAA 数据库在注释多样性方面,特别是在学科方面受到限制,已不能满足日益增长的 PIAA 研究需求。为了解决这一难题,我们对个性化图像美学进行了迄今为止最全面的主观研究,并引入了一个新的具有丰富属性的个性化图像美学数据库(PARA),该数据库由 438 个主题的 31,220 张带有注释的图像组成。PARA 具有丰富的标注,包括 9 个面向图像的客观属性和 4 个面向人的主观属性。


efe77338ea6d42edaedc9c133bc43c08_tplv-k3u1fbpfcp-zoom-1.jpg

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。


CV技术指南创建了一个免费的知识星球。关注公众号添加编辑的微信号可邀请加入。

相关文章
|
2月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
35 6
|
2月前
|
机器学习/深度学习 数据采集 自动驾驶
探索深度学习的点云分类
点云分类是指将三维点云数据中的每个点或整个点云进行分类的任务。点云数据由大量三维点构成,每个点包含空间坐标(x, y, z),有时还包含其他信息如颜色和法向量。点云分类在自动驾驶、机器人导航、3D重建等领域有广泛应用。
35 1
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
206 0
|
机器学习/深度学习 编解码 自然语言处理
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
深度学习进阶篇[9]:对抗生成网络GANs综述、代表变体模型、训练策略、GAN在计算机视觉应用和常见数据集介绍,以及前沿问题解决
|
机器学习/深度学习 传感器 编解码
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
|
机器学习/深度学习 编解码 人工智能
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
|
机器学习/深度学习 数据可视化 计算机视觉
使用深度学习进行图像类别分类
使用预训练卷积神经网络 (CNN) 作为特征提取器来训练图像类别分类器。
118 0
|
传感器 机器学习/深度学习 数据采集
使用PointNet深度学习进行点云分类
训练 PointNet 网络以进行点云分类。 点云数据由各种传感器获取,例如激光雷达、雷达和深度摄像头。这些传感器捕获场景中物体的3D位置信息,这对于自动驾驶和增强现实中的许多应用非常有用。例如,区分车辆和行人对于规划自动驾驶汽车的路径至关重要。然而,由于每个对象的数据稀疏性、对象遮挡和传感器噪声,使用点云数据训练稳健分类器具有挑战性。深度学习技术已被证明可以通过直接从点云数据中学习强大的特征表示来解决其中的许多挑战。点云分类的开创性深度学习技术之一是PointNet。
799 0
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
235 0
|
机器学习/深度学习 自动驾驶 算法
深度学习/自动驾驶数据集大集合(目标检测/图像分割/语义分割/图像分类/)
深度学习/自动驾驶数据集大集合(目标检测/图像分割/语义分割/图像分类/)
390 0