这是啥
CIFAR-10和CIFAR-100是带有标签的数据集,都出自于规模更大的一个数据集,他有八千万张小图片(http://groups.csail.mit.edu/vision/TinyImages/。这个是一个大项目,你可以点击那个big map提交自己的标签,可以帮助他们训练让计算机识别物体的模型)
该数据集共有60000张彩色图像,这些图像是32*32,分为10个类,每类6000张图。这里面有50000张用于训练,构成了5个训练批,每一批10000张图;另外10000用于测试,单独构成一批。测试批的数据里,取自10类中的每一类,每一类随机取1000张。抽剩下的就随机排列组成了训练批。注意一个训练批中的各类图像并不一定数量相同,总的来看训练批,每一类都有5000张图。
怎么整
当我们敲第二天的代码的时候,一点执行就会发现,它开始下载这个东西,而且非常慢,大概是这样:
下载
不得不说,这也太慢了,所以我们可以手动下载下来然后让它直接加载,可以去官方网站下载,这里:官方地址
也可以参考这个文章的微云地址,这里:CIFAR10数据集下载
mac电脑的加载
下载完成后,实际上python并不知道我们已经手动下载完成了,还需要我们把这个包放到对应的keras文件夹下,我使用的是mac电脑,所以我的地址是
cd ~/.keras/datasets
打开这个文件夹,然后把我们下载好的tar包改名为:cifar-10-batches-py.tar.gz
改好名字之后放到这个文件夹下,再执行代码就没问题啦。