mnist数据集预处理实战

简介: mnist数据集预处理实战

mnist数据集可以从https://s3.amazonaws.com/img-datasets/mnist.npz 这个网址进行下载,下载的文件是一种称为npz格式的文件,这是numpy库生成的特有的压缩包格式。


numpy可以将numpy.array格式的数组以文件的形式进行序列化存储到文件,然后以反序列化的方式读取文件并直接还原成之前的数组。


存储的文件主要有两种形式:*.npy和*.npz。


npy的基本用法


import numpy as np


a = np.array([x for x in range(3)])


np.save('test-a', a) #文件的扩展名默认为.npy,因此完整文件名是test-a.npy


aa = np.load('test-a.npy')

print(aa) # [0 1 2]


npz的基本用法

当需要将多个数组保存在一个文件的时候,则需要用到npz文件格式存储。


import numpy as np

a = np.array([x for x in range(3)])

b = np.array([y for y in range(3,6)])


np.savez('test-ab.npz', a = a, b = b)


data = np.load('test-ab.npz')

print(data['a']) # [0 1 2]

print(data['b']) # [3 4 5]


了解npy和npz的基本用法之后,接下来将介绍keras中mnist的数据集加载过程。


from tensorflow import keras

import numpy as np


fname = 'mnist.npz'

path = keras.utils.get_file(fname=fname,

                   origin='https://s3.amazonaws.com/img-datasets/mnist.npz')


with np.load(path, allow_pickle=True) as f:

   x_train, y_train = f['x_train'], f['y_train']

   x_test, y_test = f['x_test'], ['y_test']

   

   print(x_train.shape) # (60000, 28, 28)

   print(x_test.shape)  # (10000, 28, 28)

注:keras中下载的数据集默认的存放位置是:~/.keras/datasets/ 目录下。


可以看到mnist数据集的处理流程是将28x28x1的图片文件处理成四个numpy数组:x_train, y_train, x_test, y_test。然后将这四个数组写入到文件生成mnist.npz文件。


在使用数据集的时候,利用keras的get_file()先从指定的URL地址下载npz文件,然后加载得到两个tuple,下面是keras官方提供的mnist数据集load_data()方法:


def load_data(path='mnist.npz'):

   """Loads the MNIST dataset.

   # Arguments

       path: path where to cache the dataset locally

           (relative to ~/.keras/datasets).

   # Returns

       Tuple of Numpy arrays: `(x_train, y_train), (x_test, y_test)`.

   """

   path = get_file(path,

                   origin='https://s3.amazonaws.com/img-datasets/mnist.npz',

                   file_hash='8a61469f7ea1b51cbae51d4f78837e45')

   with np.load(path, allow_pickle=True) as f:

       x_train, y_train = f['x_train'], f['y_train']

       x_test, y_test = f['x_test'], f['y_test']

   return (x_train, y_train), (x_test, y_test)


目录
相关文章
|
编译器
overleaf 参考文献引用,创建引用目录.bib文件,在文档中引用参考文献,生成参考文献列表
overleaf 参考文献引用,创建引用目录.bib文件,在文档中引用参考文献,生成参考文献列表
5109 0
|
安全 算法 Java
5种阿里常用代码检测推荐 | 阿里巴巴DevOps实践指南(十二)
随着业务演进和团队扩张,软件规模和调用链路越来越复杂。如若没有良好的代码检测机制,只依靠功能性验证,团队技术债会越累越高,开发团队往往要花费大量的时间和精力发现并修改代码缺陷,最终拖垮迭代进度、协作效率,甚至引发严重的安全问题。
5种阿里常用代码检测推荐 |  阿里巴巴DevOps实践指南(十二)
|
机器学习/深度学习 人工智能 计算机视觉
【YOLOv8】实战一:手把手教你使用YOLOv8实现实时目标检测
【YOLOv8】实战一:手把手教你使用YOLOv8实现实时目标检测
20214 0
【YOLOv8】实战一:手把手教你使用YOLOv8实现实时目标检测
|
机器学习/深度学习 存储 并行计算
一篇就够:高性能推理引擎理论与实践 (TensorRT)
本文分享了关于 NVIDIA 推出的高性能的深度学习推理引擎 TensorRT 的背后理论知识和实践操作指南。
11834 9
一篇就够:高性能推理引擎理论与实践 (TensorRT)
|
8月前
|
机器学习/深度学习 Shell
【从零开始学习深度学习】22. 卷积神经网络(CNN)中填充(padding)与步幅(stride)详解,填充、步幅、输入及输出之间的关系
【从零开始学习深度学习】22. 卷积神经网络(CNN)中填充(padding)与步幅(stride)详解,填充、步幅、输入及输出之间的关系
|
机器学习/深度学习 数据可视化 算法
【33】t-SNE原理介绍与对手写数字MNIST的可视化结果
【33】t-SNE原理介绍与对手写数字MNIST的可视化结果
796 0
【33】t-SNE原理介绍与对手写数字MNIST的可视化结果
|
数据采集 机器学习/深度学习 编解码
图像超分实验:SRCNN/FSRCNN
【摘要】 图像超分即超分辨率,将图像从模糊的状态变清晰。本文对BSDS500数据集进行超分实验。
517 1
图像超分实验:SRCNN/FSRCNN
|
机器学习/深度学习 计算机视觉
基于VGG19迁移学习实现图像风格迁移
基于VGG19迁移学习实现图像风格迁移
699 0
基于VGG19迁移学习实现图像风格迁移
|
开发者
SyntaxError: cannot assign to literal错误
SyntaxError: cannot assign to literal错误
2398 1

热门文章

最新文章

相关实验场景

更多