连LeCun都推荐的Fashion-MNIST数据集,是这位华人博士的成果

简介:
本文来自AI新媒体量子位(QbitAI)

上周六,量子位在报道中提到德国时尚圈的科学家,推出一个名叫Fashion-MNIST的数据集。这个数据集里都是衣裤鞋包,但它的目标是替代MNIST。

随后我们发现这个数据集引发了好多研究人员的关注,包括大名鼎鼎的Yann LeCun——他周日在Facebook上推荐了这个数据集,也引发了很多的讨论。

3407916d1125158d794064c0d456bb65aab5ca10

更令我们意外的是,量子位周日收到了Fashion-MNIST数据集作者的来信,而且是一封中文来信!嗯,就是那种阅读起来毫无压力的纯正简体中文~

直到这个时候,我们才意识到这个最近非常火的数据集,虽然出自一家德国公司,但是主要的作者是一位华人:肖涵(Han Xiao)。

“这个项目是为机器学习人工智能领域提供一个更有挑战性、更有趣的MNIST替代数据集”,肖涵博士再次谈到这个项目的意义。

对于这个数据集的表现,他提到:“我也收到了很多国内AI研究员良好的使用体验,他们表示在MNIST上区分不开的算法(0.1%之差)可以在Fashion-MNIST上很好的区分开来。”

最重要的是,肖涵博士告诉量子位,他已经在GitHub上为这个数据集增加了中文文档(README.zh-CN.md)。本文最后,量子位也会摘录部分其中的内容。另外,通过这个地址即可前往访问Fashion-MNIST数据集的更多详情:

github.com/zalandoresearch/fashion-mnist

关于肖涵博士,量子位也简单的查询了一下相关背景。他目前是德国公司Zalando旗下研究院NLP组的高级研究科学家。肖涵在慕尼黑工业大学获得硕士及博士学位,此前本科毕业于北京邮电大学。(下面放一张真人秀)

0183169bf838c77d389d8f9cdb54165d41f846d8

 肖涵博士

最后,我们摘录Fashion-MNIST的中文文档部分内容如下。

FashionMNIST是一个替代MNIST手写数字集的图像数据集。 它是由Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自10种类别的共7万个不同商品的正面图片。FashionMNIST的大小、格式和训练集/测试集划分与原始的MNIST完全一致。60000/10000的训练测试数据划分,28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。

这个数据集的样子大致如下(每个类别占三行):

ee1ba15707a537f958a3e28094bd5a132925d7fd

为什么要做这个数据集?

经典的MNIST数据集包含了大量的手写数字。十几年来,来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议,期刊的论文中发现这个数据集的身影。实际上,MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道:”如果一个算法在MNIST不work, 那么它就根本没法用;而如果它在MNIST上work, 它在其他数据上也可能不work!”

Fashion-MNIST的目的是要成为MNIST数据集的一个直接替代品。作为算法作者,你不需要修改任何的代码,就可以直接使用这个数据集。Fashion-MNIST的图片大小,训练、测试样本数及类别数与经典MNIST完全相同。

写给专业的机器学习研究者

我们是认真的。取代MNIST数据集的原因由如下几个:

MNIST太简单了,很多算法在测试集上的性能已经达到99.6%!不妨看看我们基于scikit-learn上对经典机器学习算法的评测 和这段代码: “Most pairs of MNIST digits can be distinguished pretty well by just one pixel”(翻译:大多数MNIST只需要一个像素就可以区分开!)

MNIST被用烂了。参考:”Ian Goodfellow wants people to move away from mnist”(翻译:Ian Goodfellow希望人们不要再用MNIST了。)

MNIST数字识别的任务不代表现代机器学习。参考:”François Cholle: Ideas on MNIST do not transfer to real CV” (翻译:在MNIST上看似有效的想法没法迁移到真正的机器视觉问题上。)

其他

文档中还详尽描述了数据获取、类别标注、如何载入数据、评测等信息,另外作者还建立了一个讨论的聊天室。

目前相关论文已经在arXiv上发表,地址在此:

https://arxiv.org/abs/1708.07747

在量子位微信公众号(QbitAI)后台回复:“XH”两个字母,也可以获得我们放在网盘上的下载地址,就酱~

本文作者:允中 
原文发布时间: 2017-08-28
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
ICML 2024 Oral:DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘
【8月更文挑战第13天】在自然语言处理领域,大型语言模型的对齐日益重要。直接偏好优化(DPO)作为无需奖励模型的新方法,虽在学术界受关注,但在实践中,如ChatGPT等应用仍青睐近端策略优化(PPO)。清华大学吴翼团队通过理论分析与实证研究发现DPO潜在局限性,并揭示PPO在LLM微调中取得优异性能的关键因素,如优势归一化、大批量大小及指数移动平均更新等。实验表明,PPO在多个任务中超越DPO,特别是在代码生成任务中取得领先成果。然而,这些发现需更多研究验证。论文详情见: https://arxiv.org/pdf/2404.10719
174 60
|
机器学习/深度学习 存储 缓存
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(二)
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(二)
639 0
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(二)
|
存储 人工智能 自然语言处理
7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA
7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA
309 0
|
机器学习/深度学习 算法 网络架构
特拉维夫大学把StyleGAN进行了大汇总,全面了解SOTA方法、架构新进展
特拉维夫大学把StyleGAN进行了大汇总,全面了解SOTA方法、架构新进展
156 0
AI:2020年6月22日北京智源大会演讲分享之认知神经基础专题论坛——13:40-14:20毕彦超教授《Knowledge representation in the Human brain》
AI:2020年6月22日北京智源大会演讲分享之认知神经基础专题论坛——13:40-14:20毕彦超教授《Knowledge representation in the Human brain》
AI:2020年6月22日北京智源大会演讲分享之认知神经基础专题论坛——13:40-14:20毕彦超教授《Knowledge representation in the Human brain》
|
机器学习/深度学习 数据挖掘 计算机视觉
Alexnet论文泛读:深度学习CV领域划时代论文具有里程碑意义NeurIPS2012
Alexnet论文泛读:深度学习CV领域划时代论文具有里程碑意义NeurIPS2012
Alexnet论文泛读:深度学习CV领域划时代论文具有里程碑意义NeurIPS2012
|
机器学习/深度学习 人工智能 自然语言处理
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(一)
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(一)
1072 0
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(一)
|
机器学习/深度学习 人工智能 计算机视觉
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(三)
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(三)
2082 0
万物皆Contrastive Learning,从ICLR和NIPS上解读对比学习最新研究进展(三)
|
机器学习/深度学习 运维 算法
ICLR和CVPR双料大作:谷歌自监督学习框架,夺榜多个异常检测数据集
ICLR2021和CVPR2021双料大作,谷歌最新成果,融合单类分类与深度表示的自监督学习的异常检测算法,超越多个数据集基准。
442 0
ICLR和CVPR双料大作:谷歌自监督学习框架,夺榜多个异常检测数据集
|
机器学习/深度学习 人工智能 算法
国际机器学习顶会ICML,我们来了!
当前机器学习前沿技术研究焦点是什么?AI+ 金融有哪些最新发展?……
1517 0