mnist数据集预处理实战-阿里云开发者社区

mnist数据集预处理实战

2023-06-15 331 发布于吉林

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： mnist数据集预处理实战

mnist数据集可以从https://s3.amazonaws.com/img-datasets/mnist.npz 这个网址进行下载，下载的文件是一种称为npz格式的文件，这是numpy库生成的特有的压缩包格式。

numpy可以将numpy.array格式的数组以文件的形式进行序列化存储到文件，然后以反序列化的方式读取文件并直接还原成之前的数组。

存储的文件主要有两种形式：*.npy和*.npz。

npy的基本用法

import numpy as np

a = np.array([x for x in range(3)])

np.save('test-a', a) #文件的扩展名默认为.npy，因此完整文件名是test-a.npy

aa = np.load('test-a.npy')

print(aa) # [0 1 2]

npz的基本用法

当需要将多个数组保存在一个文件的时候，则需要用到npz文件格式存储。

import numpy as np

a = np.array([x for x in range(3)])

b = np.array([y for y in range(3,6)])

np.savez('test-ab.npz', a = a, b = b)

data = np.load('test-ab.npz')

print(data['a']) # [0 1 2]

print(data['b']) # [3 4 5]

了解npy和npz的基本用法之后，接下来将介绍keras中mnist的数据集加载过程。

from tensorflow import keras

import numpy as np

fname = 'mnist.npz'

path = keras.utils.get_file(fname=fname,

origin='https://s3.amazonaws.com/img-datasets/mnist.npz')

with np.load(path, allow_pickle=True) as f:

x_train, y_train = f['x_train'], f['y_train']

x_test, y_test = f['x_test'], ['y_test']

print(x_train.shape) # (60000, 28, 28)

print(x_test.shape) # (10000, 28, 28)

注：keras中下载的数据集默认的存放位置是：~/.keras/datasets/ 目录下。

可以看到mnist数据集的处理流程是将28x28x1的图片文件处理成四个numpy数组：x_train, y_train, x_test, y_test。然后将这四个数组写入到文件生成mnist.npz文件。

在使用数据集的时候，利用keras的get_file()先从指定的URL地址下载npz文件，然后加载得到两个tuple，下面是keras官方提供的mnist数据集load_data()方法：

def load_data(path='mnist.npz'):

"""Loads the MNIST dataset.

# Arguments

path: path where to cache the dataset locally

(relative to ~/.keras/datasets).

# Returns

Tuple of Numpy arrays: `(x_train, y_train), (x_test, y_test)`.

"""

path = get_file(path,

origin='https://s3.amazonaws.com/img-datasets/mnist.npz',

file_hash='8a61469f7ea1b51cbae51d4f78837e45')

with np.load(path, allow_pickle=True) as f:

x_train, y_train = f['x_train'], f['y_train']

x_test, y_test = f['x_test'], f['y_test']

return (x_train, y_train), (x_test, y_test)

mnist数据集预处理实战

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

mnist数据集预处理实战

热门文章

最新文章

相关课程

相关电子书

相关实验场景