MNIST数据集简介
数据集(Dataset)是一类数据的集合。传统的数据集通常表现为表格或者文档形式,每个数值被称为数据资料。不同的数据集,形式是不同的,如图像的数据集可能是文件的形式,在文件中可能是十六进制数值的形式,或者是一系列照片的形式,再或者是视频的形式。
经典的数据集如表所示。
经典的数据集
数据集名称 功能
Iris Flower数据集 由罗纳德·费希尔(Ronald Fisher)引入的多变量数据集
MNIST数据集 通常用于测试分类、聚类和图像处理算法的手写数字图像
分类数据分析数据集 一个统计程序清单,可用于分类数据的分析
时间序列数据集 在时间上顺序索引的一系列数据
MNIST数据集是一个含有手写数字的大型数据集,包含0~9共10个数字,通常用于训练图像处理系统。该数据集还广泛用于机器学习领域的训练和测试。
MNIST数据集包含60000个训练图像和10000个测试图像,其中,训练集的一半和测试集的一半来自NIST的训练数据集,训练集的另一半和测试集的另一半来自NIST的测试数据集。
MNIST数据集共有4个文件,分别是训练集数据、训练集标签以及测试集数据、测试集标签。MNIST数据集的图像以字节的形式进行存储,每幅图像都为单通道图像,由28×28个像素点构成。