闭眼推荐,9 个不能错过的机器学习数据集

简介: 闭眼推荐,9 个不能错过的机器学习数据集


内容一览:本期整理了 HyperAI超神经官网近期更新的 9 个数据集,涉及人脸识别、姿态估计、自动驾驶三个领域。关键词:人脸识别 姿态估计 自动驾驶本文首发自微信公众号: HyperAI 超神经

近期,HyperAI超神经官网更新了 300+ 优质公开数据集,数据模态涉及图像、视频、音频、RGB-D 等。

本文整理汇总了 9 个具有代表性的数据集,大家按需下载使用。

直达 HyperAI超神经数据集传送门:

https://hyper.ai/datasets

image.png

人脸识别 (Face Recognition)

人脸识别是计算机视觉项目的应用之一。在人脸识别的训练中,训练的数据量大、质量稳定、没有「杂质」,是研究中非常好的优质数据库。

VGG-Face2 人脸识别数据集

VGG-Face2 数据集,是一个人脸图片数据集。

数据集中图像均来自 Google 图片搜索。数据集中的人在姿势、年龄、种族和职业方面有很大差异。

VGG-Face2 Dataset

发布机构: 牛津大学

包含数量: 331 万张图片

数据格式: images

数据大小: 37.49 GB

发布时间: 2017 年

下载地址:hyper.ai/datasets/5711

Helen 人脸数据集

HELEN 数据集由 2,330 张 400*400 像素的人脸图像组成。该数据集包括 2,000 张训练图像和 330 张测试图像,带有高度准确的、详细和一致的人脸主要组成部分标注。

Helen Dataset

发布机构: 伊利诺斯大学

包含数量: 2,330 张 400*400 像素的人脸图像

数据格式: images

数据大小: 1.02 GB

发布时间: 2012 年

下载地址:hyper.ai/datasets/16552

FairFace 人脸数据集

FairFace 是一个更种族均衡的人脸图像数据集。 该数据集包含 108,501 张图片,设及 7 个不同种族群体(白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁裔)。

FairFace Dataset

发布机构: 加州大学洛杉矶分校

包含数量: 108,501 张图片

数据格式: images

数据大小: 2.49 GB

发布时间: 2020 年

下载地址:hyper.ai/datasets/17876

姿态估计 (Human Pose Estimation)

姿态估计是利用某种几何模型或结构来表示物体的结构和形状。 当前存在的难点包括背景复杂、复杂姿态样本少等。

MPI-INF-3DHP 3D 人体姿态估计数据集

MPI-INF-3DHP 是一个 3D 人体姿态估计数据集,图像有室内和室外环境。 该数据集包含 130 多万帧图像,由 14 个摄像角度记录 8 位参与者的 8 类活动。

MPI-INF-3DHP Dataset

发布机构: 萨尔州大学

包含数量: 130 多万帧图像

数据格式: video

数据大小: 21.77 GB

发布时间: 2016 年

下载地址:hyper.ai/datasets/17262

HandNet 手部姿势数据集

HandNet 手部姿势数据集包含 10 位参与者的手在 RealSense RGB-D 相机前非刚性变形的深度图。该数据集共包含 214,971 张深度图,其中训练集 202,198 张,测试集 10,000 张,验证集 2,773 张。

HandNet Dataset

发布机构: 以色列理工学院

包含数量: 214,971 张图像

数据格式: images

数据大小: 12.85 GB

发布时间: 2015 年

下载地址:hyper.ai/datasets/19801

3DPW 姿态数据集

3DPW 全称 3D Poses in the Wild,是首个具有精确 3D 姿态的户外数据集,可用于解决姿态估计问题。 该数据集包括 60 个视频序列,3D 人体扫描和 3D 人物模型。

3DPW Dataset

发布机构: 汉诺威莱布尼兹大学

包含数量: 60 个视频序列

数据格式: video

数据大小: 4.55 GB

发布时间: 2018 年

下载地址:hyper.ai/datasets/16463

自动驾驶 (Self-Driving)

人工智能在自动驾驶与可以担任驾驶员这一角色,通过对道路上发生的各种状况信息进行搜集、分析和处理,做出操作代替人为操控。

Comma.ai 自动驾驶视频数据集

Comma.ai 数据集是一个用于自动驾驶的视频数据集。 包含共计 7.25 小时的视频,该数据集包含 10 个以 20Hz 频率记录的视频。该数据集还包括如汽车时速、加速度、转向角、GPS 坐标、陀螺仪角度等的测量值。

Comma.ai Dataset

发布机构: Comma.ai 公司

包含数量: 7.25 个小时视频

数据格式: video

数据大小: 44.96 GB

发布时间: 2016 年

下载地址:hyper.ai/datasets/5200

Argoverse 自动驾驶数据集

Argoverse 数据集包含 3D Tracking 和 Motion Forecasting 两部分。

Argoverse 3D tracking 数据集包含 113 个场景的 3d 跟踪注释。 每个片段长度为 15-30 秒,共计包含 11319 个跟踪对象。在训练集和测试集的每个片段场景中包含了五米内的所有物体的注释,可被理解为检测汽车可驾驶区域(5 米)的所有物体,以 3d 框架形式展现。该数据集可被自动驾驶等领域使用。

Argoverse Motion Forecasting 数据集为运动预测类模型的数据集, 包含 327793 个场景,每个场景时常 5 秒,且包含以 10 Hz 采样的每个跟踪对象的 2D 鸟瞰图。该数据集是由超过 1000 小时的街道驾驶所获取,可用于自动驾驶等领域的研究。

Argoverse Dataset

发布机构: ARGO AI

包含数量: 超过 3 万个场景

数据大小: 260.38 GB

发布时间: 2019 年

下载地址:hyper.ai/datasets/8858

Talk2Car 自动驾驶数据集

Talk2Car 数据集是一个对象引用数据集,包含了用自然语言为自动驾驶汽车编写的命令,即乘客可以通过说话的形式对自动驾驶汽车下达命令。

Talk2Car 数据集建立在 nuScenes 数据集之上,包括一套广泛的传感器模式,即语义地图、GPS、激光雷达、雷达和带有 3D bounding box 标注的 360° RGB 图像。

Talk2Car Dataset

发布机构: 比利时鲁汶大学

数据格式: images

数据大小: 1.65 GB

发布时间: 2019 年

下载地址:hyper.ai/datasets/18926

搜索或下载数据集,访问以下链接:

https://hyper.ai/datasets

—— 完 ——

相关文章
|
1月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
103 4
|
1月前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
130 1
|
2月前
|
XML JSON 数据可视化
数据集学习笔记(二): 转换不同类型的数据集用于模型训练(XML、VOC、YOLO、COCO、JSON、PNG)
本文详细介绍了不同数据集格式之间的转换方法,包括YOLO、VOC、COCO、JSON、TXT和PNG等格式,以及如何可视化验证数据集。
357 1
数据集学习笔记(二): 转换不同类型的数据集用于模型训练(XML、VOC、YOLO、COCO、JSON、PNG)
|
4月前
|
UED 存储 数据管理
深度解析 Uno Platform 离线状态处理技巧:从网络检测到本地存储同步,全方位提升跨平台应用在无网环境下的用户体验与数据管理策略
【8月更文挑战第31天】处理离线状态下的用户体验是现代应用开发的关键。本文通过在线笔记应用案例,介绍如何使用 Uno Platform 优雅地应对离线状态。首先,利用 `NetworkInformation` 类检测网络状态;其次,使用 SQLite 实现离线存储;然后,在网络恢复时同步数据;最后,通过 UI 反馈提升用户体验。
115 0
|
4月前
|
机器学习/深度学习 TensorFlow 数据处理
分布式训练在TensorFlow中的全面应用指南:掌握多机多卡配置与实践技巧,让大规模数据集训练变得轻而易举,大幅提升模型训练效率与性能
【8月更文挑战第31天】本文详细介绍了如何在Tensorflow中实现多机多卡的分布式训练,涵盖环境配置、模型定义、数据处理及训练执行等关键环节。通过具体示例代码,展示了使用`MultiWorkerMirroredStrategy`进行分布式训练的过程,帮助读者更好地应对大规模数据集与复杂模型带来的挑战,提升训练效率。
117 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
scikit-learn.datasets 机器学习数据集
scikit-learn.datasets 机器学习数据集
51 0
|
4月前
|
机器学习/深度学习 数据可视化 搜索推荐
【python机器学习】python电商数据K-Means聚类分析可视化(源码+数据集+报告)【独一无二】
【python机器学习】python电商数据K-Means聚类分析可视化(源码+数据集+报告)【独一无二】
210 0
|
7月前
|
机器学习/深度学习 数据采集 人工智能
论文介绍:机器学习中数据集规模增长的极限分析
【5月更文挑战第17天】论文《机器学习中数据集规模增长的极限分析》探讨了数据集大小对AI模型性能的影响,预测语言数据可能在2026年前耗尽,图像数据在2030-2060年可能面临相同问题。研究显示数据积累速度无法跟上数据集增长,可能在2030-2040年间导致训练瓶颈。然而,算法创新和新数据源的发展可能缓解这一问题。[链接](https://arxiv.org/pdf/2211.04325.pdf)
121 2
|
6月前
|
机器学习/深度学习 算法 PyTorch
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】