免费的机器学习数据集网站(6300+数据集

简介: 免费的机器学习数据集网站(6300+数据集

 今天给大家分享一个免费获取机器学习数据集网站:

Machine Learning Datasets | Papers With Code

有想法但没有数据集的同学的福音,网站届满很简洁,及本本上提供的了一般可用的各类数据集,我们可以进行各类影像、评论和点云等数据集的搜罗。

image.png

 

CIFAR-10

由 Krizhevsky 等人介绍。在从微小图像中学习多层特征

CIFAR -10数据集(加拿大高级研究所,10 个类别)是 Tiny Images 数据集的子集,由 60000 张 32x32 彩色图像组成。这些图像标有 10 个相互排斥的类别之一:飞机、汽车(但不是卡车或皮卡车)、鸟、猫、鹿、狗、青蛙、马、船和卡车(但不是皮卡车)。每类有 6000 张图像,每类有 5000 张训练图像和 1000 张测试图像。

判断图像是否属于某个类别的标准如下:

  • 班级名称应该在“这张照片中有什么?”问题的可能答案列表中排在前面。
  • 图像应该是照片般逼真的。贴标机被指示拒绝画线图。
  • 图像应仅包含该类所指对象的一个突出实例。只要标记者仍然清楚物体的身份,物体就可能被部分遮挡或从不寻常的角度看到。

资源:CIFAR-10 and CIFAR-100 datasets

image.png

 

城市景观

由 Cordts 等人介绍。在用于语义城市场景理解的 Cityscapes 数据集中

Cityscapes是一个专注于城市街景语义理解的大型数据库。它为分为 8 个类别(平面、人类、车辆、建筑、物体、自然、天空和虚空)的 30 个类别提供语义、实例和密集像素注释。该数据集由大约 5000 个精细标注的图像和 20000 个粗糙标注的图像组成。在几个月、白天和良好的天气条件下,在 50 个城市捕获了数据。它最初是作为视频录制的,因此手动选择帧以具有以下特征:大量动态对象、变化的场景布局和变化的背景。

资源:应用于语义分割的深度学习技术综述

 

宾夕法尼亚树库

由 Mitchell P. Marcus 等人介绍。在建立一个大型带注释的英语语料库:Penn Treebank

英语Penn Treebank ( PTB ) 语料库,特别是与华尔街日报 (WSJ) 文章相对应的语料库部分,是用于评估序列标签模型的最知名和最常用的语料库之一。该任务包括用词性标签注释每个单词。在这个语料库最常见的分割中,从 0 到 18 的部分用于训练(38 219 个句子,912 344 个标记),从 19 到 21 的部分用于验证(5 527 个句子,131 768 个标记),从22 到 24 用于测试(5 462 个句子,129 654 个标记)。语料库也常用于字符级和词级语言建模。

资源:Seq2Biseq:用于序列建模的双向输出循环神经网络

 

IMDb 电影评论

由 Andrew L. Maas 等人介绍。在学习用于情感分析的词向量

IMDb 电影评论数据集是一个二元情感分析数据集,由来自互联网电影数据库 (IMDb) 的 50,000 条评论组成,标记为正面或负面。该数据集包含偶数个正面和负面评论。只考虑高度两极分化的评论。负面评论的得分≤4(满分10),正面评论的得分≥7(满分10)。每部电影包含的评论不超过30条。数据集包含其他未标记的数据。

资源:Sentiment analysis | NLP-progress

主页

 

模型网

由吴等人介绍。在3D ShapeNets 中:体积形状的深度表示

ModelNet 40数据集包含合成对象点云。作为最广泛使用的点云分析基准,ModelNet40 因其类别多样、形状清晰、数据集结构良好等而广受欢迎。原来的 ModelNet40 由 40 个类别(如飞机、汽车、植物,灯),其中 9,843 个用于训练,其余 2,468 个用于测试。相应的点云数据点从网格表面均匀采样,然后通过移动到原点并缩放成单位球体进行进一步预处理。

资源:用于点云分类的几何反馈网络

CARLA(汽车学习行动)

由 Dosovitskiy 等人介绍。在CARLA:一个开放的城市驾驶模拟器

CARLA(CAR Learning to Act)是一个开放的城市驾驶模拟器,作为 Unreal Engine 4 上的一个开源层而开发。从技术上讲,它的运行方式类似于 Unreal Engine 4 上的一个开源层,以以下形式提供传感器RGB 摄像头(可定制位置)、地面实况深度图、具有 12 个专为驾驶(道路、车道标记、交通标志、人行道等)设计的语义类别的地面实况语义分割图、环境中动态对象的边界框,以及代理本身的测量(车辆位置和方向)。

资源:深度学习的合成数据

 

以上就是简单的给大家介绍了几个常用的数据集,请大家自己去网站获取更多数据 。



相关文章
|
12天前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
33 1
|
1月前
|
XML JSON 数据可视化
数据集学习笔记(二): 转换不同类型的数据集用于模型训练(XML、VOC、YOLO、COCO、JSON、PNG)
本文详细介绍了不同数据集格式之间的转换方法,包括YOLO、VOC、COCO、JSON、TXT和PNG等格式,以及如何可视化验证数据集。
68 1
数据集学习笔记(二): 转换不同类型的数据集用于模型训练(XML、VOC、YOLO、COCO、JSON、PNG)
|
3月前
|
UED 存储 数据管理
深度解析 Uno Platform 离线状态处理技巧:从网络检测到本地存储同步,全方位提升跨平台应用在无网环境下的用户体验与数据管理策略
【8月更文挑战第31天】处理离线状态下的用户体验是现代应用开发的关键。本文通过在线笔记应用案例,介绍如何使用 Uno Platform 优雅地应对离线状态。首先,利用 `NetworkInformation` 类检测网络状态;其次,使用 SQLite 实现离线存储;然后,在网络恢复时同步数据;最后,通过 UI 反馈提升用户体验。
91 0
|
3月前
|
机器学习/深度学习 TensorFlow 数据处理
分布式训练在TensorFlow中的全面应用指南:掌握多机多卡配置与实践技巧,让大规模数据集训练变得轻而易举,大幅提升模型训练效率与性能
【8月更文挑战第31天】本文详细介绍了如何在Tensorflow中实现多机多卡的分布式训练,涵盖环境配置、模型定义、数据处理及训练执行等关键环节。通过具体示例代码,展示了使用`MultiWorkerMirroredStrategy`进行分布式训练的过程,帮助读者更好地应对大规模数据集与复杂模型带来的挑战,提升训练效率。
80 0
|
3月前
|
机器学习/深度学习 算法 数据挖掘
scikit-learn.datasets 机器学习数据集
scikit-learn.datasets 机器学习数据集
39 0
|
3月前
|
机器学习/深度学习 数据可视化 搜索推荐
【python机器学习】python电商数据K-Means聚类分析可视化(源码+数据集+报告)【独一无二】
【python机器学习】python电商数据K-Means聚类分析可视化(源码+数据集+报告)【独一无二】
146 0
|
6月前
|
机器学习/深度学习 数据采集 人工智能
论文介绍:机器学习中数据集规模增长的极限分析
【5月更文挑战第17天】论文《机器学习中数据集规模增长的极限分析》探讨了数据集大小对AI模型性能的影响,预测语言数据可能在2026年前耗尽,图像数据在2030-2060年可能面临相同问题。研究显示数据积累速度无法跟上数据集增长,可能在2030-2040年间导致训练瓶颈。然而,算法创新和新数据源的发展可能缓解这一问题。[链接](https://arxiv.org/pdf/2211.04325.pdf)
99 2
|
5月前
|
机器学习/深度学习 算法 PyTorch
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】
|
6月前
|
机器学习/深度学习 小程序 计算机视觉
机器学习寻找数据集—动态网站获取
机器学习寻找数据集—动态网站获取