取代MNIST？德国时尚圈的科学家们推出基准数据集，全是衣裤鞋包-阿里云开发者社区

取代MNIST？德国时尚圈的科学家们推出基准数据集，全是衣裤鞋包

2018-01-26 1311

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

MNIST，是一个手写数字数据集，除了用在机器学习入门的教学中，它还是对机器学习算法进行基准测试的常用数据集。

但是，总有人觉得MNIST不够好，想要扩充、改进、替代它。

ae6a4be1e5a6ef207751057a1ff847d520015361

今天，德国研究机构Zalando Research在GitHub上发布了一个名叫Fashion-MNIST的数据集，其中训练集包含60000个样例，测试集包含10000个样例，分为10类。样例都来自日常穿着的衣裤鞋包，每一个都是28×28的灰度图像。

除了内容不一样，这个数据集的图片尺寸、训练/测试集划分、文件的存储结构，都和MNIST一模一样。

这个数据集虽然名字里带有“fashion”，内容也都是服饰，但它的目标用途和时尚毫无关系：它致力于成为MNIST的替代品，用作机器学习算法的基准测试。

30dec54f2a17f0c8040de3ecb06d63b3c24b287d

△ Fashion-MNIST(左)和原始MNIST(右)的t-SNE可视化展示

为什么要替代MNIST呢？

Zalando Research在这个数据集的说明中称，AI/机器学习/数据科学界的同学们搞出一个新算法之后，往往会先在MNIST上做基准测试，来验证这个算法。

于是，在这些群体之间流传着这样一种说法：如果一种算法连MNIST都搞不定，那它就是真没用；如果它能搞定MNIST，放到别的地方也不一定管用……

MNIST不好用，主要是因为它太简单了。甚至有人证明过，如果只是想区分开两个手写数字，很多时候识别一个像素就够了。

Google研究员、Keras作者François Chollet也曾经说，MNIST有很多问题，但其中最严重的一个，是它对于计算机视觉任务真的不具有代表性，做计算机视觉的算法，至少应该用CIFAR10这个复杂程度的数据集。

0e90454ec6c2d3202f596bb787dd135c4f6d4b76

这次推出fashion-MNIST，想要取代MNIST的是德国研究机构Zalando Research，隶属于主营衣服鞋子的德国电商公司Zalando。

最后，如果你想试试这个fashion-MNIST数据集，请到https://github.com/zalandoresearch/fashion-mnist

— 完 —

本文作者：李林

原文发布时间： 2017-08-26

取代MNIST？德国时尚圈的科学家们推出基准数据集，全是衣裤鞋包

△ Fashion-MNIST(左)和原始MNIST(右)的t-SNE可视化展示

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

取代MNIST？德国时尚圈的科学家们推出基准数据集，全是衣裤鞋包

△ Fashion-MNIST(左)和原始MNIST(右)的t-SNE可视化展示

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景