今天给大家分享一个免费获取机器学习数据集网站:
Machine Learning Datasets | Papers With Code
有想法但没有数据集的同学的福音,网站届满很简洁,及本本上提供的了一般可用的各类数据集,我们可以进行各类影像、评论和点云等数据集的搜罗。
CIFAR-10
由 Krizhevsky 等人介绍。在从微小图像中学习多层特征
CIFAR -10数据集(加拿大高级研究所,10 个类别)是 Tiny Images 数据集的子集,由 60000 张 32x32 彩色图像组成。这些图像标有 10 个相互排斥的类别之一:飞机、汽车(但不是卡车或皮卡车)、鸟、猫、鹿、狗、青蛙、马、船和卡车(但不是皮卡车)。每类有 6000 张图像,每类有 5000 张训练图像和 1000 张测试图像。
判断图像是否属于某个类别的标准如下:
- 班级名称应该在“这张照片中有什么?”问题的可能答案列表中排在前面。
- 图像应该是照片般逼真的。贴标机被指示拒绝画线图。
- 图像应仅包含该类所指对象的一个突出实例。只要标记者仍然清楚物体的身份,物体就可能被部分遮挡或从不寻常的角度看到。
资源:CIFAR-10 and CIFAR-100 datasets
城市景观
由 Cordts 等人介绍。在用于语义城市场景理解的 Cityscapes 数据集中
Cityscapes是一个专注于城市街景语义理解的大型数据库。它为分为 8 个类别(平面、人类、车辆、建筑、物体、自然、天空和虚空)的 30 个类别提供语义、实例和密集像素注释。该数据集由大约 5000 个精细标注的图像和 20000 个粗糙标注的图像组成。在几个月、白天和良好的天气条件下,在 50 个城市捕获了数据。它最初是作为视频录制的,因此手动选择帧以具有以下特征:大量动态对象、变化的场景布局和变化的背景。
宾夕法尼亚树库
由 Mitchell P. Marcus 等人介绍。在建立一个大型带注释的英语语料库:Penn Treebank
英语Penn Treebank ( PTB ) 语料库,特别是与华尔街日报 (WSJ) 文章相对应的语料库部分,是用于评估序列标签模型的最知名和最常用的语料库之一。该任务包括用词性标签注释每个单词。在这个语料库最常见的分割中,从 0 到 18 的部分用于训练(38 219 个句子,912 344 个标记),从 19 到 21 的部分用于验证(5 527 个句子,131 768 个标记),从22 到 24 用于测试(5 462 个句子,129 654 个标记)。语料库也常用于字符级和词级语言建模。
资源:Seq2Biseq:用于序列建模的双向输出循环神经网络
IMDb 电影评论
由 Andrew L. Maas 等人介绍。在学习用于情感分析的词向量
IMDb 电影评论数据集是一个二元情感分析数据集,由来自互联网电影数据库 (IMDb) 的 50,000 条评论组成,标记为正面或负面。该数据集包含偶数个正面和负面评论。只考虑高度两极分化的评论。负面评论的得分≤4(满分10),正面评论的得分≥7(满分10)。每部电影包含的评论不超过30条。数据集包含其他未标记的数据。
资源:Sentiment analysis | NLP-progress
模型网
由吴等人介绍。在3D ShapeNets 中:体积形状的深度表示
ModelNet 40数据集包含合成对象点云。作为最广泛使用的点云分析基准,ModelNet40 因其类别多样、形状清晰、数据集结构良好等而广受欢迎。原来的 ModelNet40 由 40 个类别(如飞机、汽车、植物,灯),其中 9,843 个用于训练,其余 2,468 个用于测试。相应的点云数据点从网格表面均匀采样,然后通过移动到原点并缩放成单位球体进行进一步预处理。
CARLA(汽车学习行动)
由 Dosovitskiy 等人介绍。在CARLA:一个开放的城市驾驶模拟器
CARLA(CAR Learning to Act)是一个开放的城市驾驶模拟器,作为 Unreal Engine 4 上的一个开源层而开发。从技术上讲,它的运行方式类似于 Unreal Engine 4 上的一个开源层,以以下形式提供传感器RGB 摄像头(可定制位置)、地面实况深度图、具有 12 个专为驾驶(道路、车道标记、交通标志、人行道等)设计的语义类别的地面实况语义分割图、环境中动态对象的边界框,以及代理本身的测量(车辆位置和方向)。
资源:深度学习的合成数据
以上就是简单的给大家介绍了几个常用的数据集,请大家自己去网站获取更多数据 。