MNIST,是一个手写数字数据集,除了用在机器学习入门的教学中,它还是对机器学习算法进行基准测试的常用数据集。
但是,总有人觉得MNIST不够好,想要扩充、改进、替代它。
今天,德国研究机构Zalando Research在GitHub上发布了一个名叫Fashion-MNIST的数据集,其中训练集包含60000个样例,测试集包含10000个样例,分为10类。样例都来自日常穿着的衣裤鞋包,每一个都是28×28的灰度图像。
除了内容不一样,这个数据集的图片尺寸、训练/测试集划分、文件的存储结构,都和MNIST一模一样。
这个数据集虽然名字里带有“fashion”,内容也都是服饰,但它的目标用途和时尚毫无关系:它致力于成为MNIST的替代品,用作机器学习算法的基准测试。
△ Fashion-MNIST(左)和原始MNIST(右)的t-SNE可视化展示
为什么要替代MNIST呢?
Zalando Research在这个数据集的说明中称,AI/机器学习/数据科学界的同学们搞出一个新算法之后,往往会先在MNIST上做基准测试,来验证这个算法。
于是,在这些群体之间流传着这样一种说法:如果一种算法连MNIST都搞不定,那它就是真没用;如果它能搞定MNIST,放到别的地方也不一定管用……
MNIST不好用,主要是因为它太简单了。甚至有人证明过,如果只是想区分开两个手写数字,很多时候识别一个像素就够了。
Google研究员、Keras作者François Chollet也曾经说,MNIST有很多问题,但其中最严重的一个,是它对于计算机视觉任务真的不具有代表性,做计算机视觉的算法,至少应该用CIFAR10这个复杂程度的数据集。
这次推出fashion-MNIST,想要取代MNIST的是德国研究机构Zalando Research,隶属于主营衣服鞋子的德国电商公司Zalando。
最后,如果你想试试这个fashion-MNIST数据集,请到https://github.com/zalandoresearch/fashion-mnist
— 完 —