使用 **迭代器** 获取 Cifar 等常用数据集

简介: 一个很方便使用的数据库。

CifarMNIST 等常用数据集的坑:

  • 每次在一台新的机器上使用它们去训练模型都需要重新下载(国内网络往往都不给力,需要花费大量的时间,有时还下载不了);
  • 即使下载到本地,然而不同的模型对它们的处理方式各不相同,我们又需要花费一些时间去了解如何读取数据。

为了解决上述的坑,我在Bunch 转换为 HDF5 文件:高效存储 Cifar 等数据集中将一些常用的数据集封装为 HDF5 文件。

下面的 X.h5c 可以参考Bunch 转换为 HDF5 文件:高效存储 Cifar 等数据集自己制作,也可以直接下载使用(链接:https://pan.baidu.com/s/1hsbMhv3MDlOES3UDDmOQiw 密码:qlb7)。

使用方法很简单:

访问数据集

# 载入所需要的包
import tables as tb
import numpy as np
xpath = 'E:/xdata/X.h5'  # 文件所在路径
h5 = tb.open_file(xpath)

下面我们来看看此文件中有那些数据集:

h5.root
/ (RootGroup) "Xinet's dataset"
  children := ['cifar10' (Group), 'cifar100' (Group), 'fashion_mnist' (Group), 'mnist' (Group)]

下面我们以 Cifar 为例,来详细说明该文件的使用:

cifar = h5.root.cifar100   # 获取 cifar100

为了高效使用数据集,我们使用迭代器的方式来获取它:

class Loader:
    """
    方法
    ========
    L 为该类的实例
    len(L)::返回 batch 的批数
    iter(L)::即为数据迭代器

    Return
    ========
    可迭代对象(numpy 对象)
    """

    def __init__(self, X, Y, batch_size, shuffle):
        '''
        X, Y 均为类 numpy 
        '''
        self.X = X
        self.Y = Y
        self.batch_size = batch_size
        self.shuffle = shuffle

    def __iter__(self):
        n = len(self.X)
        idx = np.arange(n)

        if self.shuffle:
            np.random.shuffle(idx)

        for k in range(0, n, self.batch_size):
            K = idx[k:min(k + self.batch_size, n)].tolist()
            yield np.take(self.X, K, 0), np.take(self.Y, K, 0)

    def __len__(self):
        return round(len(self.X) / self.batch_size)

下面我们可以使用 Loader 来实例化我们的数据集:

batch_size = 512
train_cifar = Loader(cifar.trainX, cifar.train_fine_labels, batch_size, True)
test_cifar = Loader(cifar.testX, cifar.test_fine_labels, batch_size, False)

读取一个 Batch 的数据:

for imgs, labels in iter(train_cifar):
    break
names = np.asanyarray([cifar.fine_label_names[label] for label in labels], dtype='U')
names[:7]
array(['orchid', 'spider', 'rabbit', 'shark', 'shrew', 'clock', 'bed'],
      dtype='<U13')

可视化

需要注意,这里的 Cifarfirst channel 的,即:

imgs.shape
(512, 3, 32, 32)
names.shape
(512,)
from pylab import plt, mpl


mpl.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号 '-' 显示为方块的问题


def show_imgs(imgs, labels):
    '''
    展示 多张图片
    '''
    imgs = np.transpose(imgs, (0, 2, 3, 1))
    n = imgs.shape[0]
    h, w = 5, int(n / 5)
    fig, ax = plt.subplots(h, w, figsize=(7, 7))
    K = np.arange(n).reshape((h, w))
    names = np.asanyarray([cifar.fine_label_names[label] for label in labels], dtype='U')
    names = names.reshape((h, w))
    for i in range(h):
        for j in range(w):
            img = imgs[K[i, j]]
            ax[i][j].imshow(img)
            ax[i][j].axes.get_yaxis().set_visible(False)
            ax[i][j].axes.set_xlabel(names[i][j])
            ax[i][j].set_xticks([])
    plt.show()
show_imgs(imgs[:25], labels[:25])

output_19_0.png-89.9kB

$2$ 个深度学习框架 & 数据集

因为,上面的数据集是 NumPyarray 形式,故而:

TensorFlow

import tensorflow as tf
for imgs, labels in iter(train_cifar):
    imgs = tf.constant(imgs)
    labels = tf.constant(labels)
    break
imgs
<tf.Tensor 'Const:0' shape=(512, 3, 32, 32) dtype=uint8>
labels
<tf.Tensor 'Const_1:0' shape=(512,) dtype=int32>

MXNet

from mxnet import nd, cpu, gpu
for imgs, labels in iter(train_cifar):
    imgs = nd.array(imgs, ctx = gpu(0))
    labels = nd.array(labels, ctx = cpu(0))
    break
imgs.context
gpu(0)
labels.context
cpu(0)

Matlab 读取 HDF

参考:h5read
捕获.PNG-65.5kB

目录
相关文章
|
9月前
|
供应链 算法 数据挖掘
课时14:工业大脑介绍
阿里云ET工业大脑以数据为驱动,融合算法模型和互联网技术,优化工业生产全流程。它通过数据分析、参数调节、故障预测、智能质检和供应链管理等手段,提升产品质量、生产效率及资源利用率,助力企业实现智能化转型,推动绿色工厂建设,成功应用于光伏、橡胶等行业,显著提高经济效益与环保水平。
261 0
|
12月前
|
C语言
【C语言】逻辑操作符详解 - 《真假美猴王 ! 》
C语言中有三种主要的逻辑运算符:逻辑与(`&&`)、逻辑或(`||`)和逻辑非(`!`)。这些运算符用于执行布尔逻辑运算。
913 7
|
存储 传感器 缓存
轻量级的嵌入式模块化软件架构
轻量级的嵌入式模块化软件架构
387 1
|
机器学习/深度学习 并行计算 编译器
MXNet安装教程:详细步骤与常见问题解析
【4月更文挑战第12天】本文详细介绍了MXNet深度学习框架的安装步骤,包括Python、conda和R用户的安装方法,以及GPU支持的选项。在安装过程中可能遇到网络问题、依赖冲突和GPU支持问题等,文中给出了相应解决策略。安装后,通过简单的代码示例验证MXNet是否正常工作,从而顺利完成本地环境搭建。
2518 7
|
SQL JSON Java
Flink报错问题之执行sqlQuery报错如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
运维 供应链 监控
韵达基于云原生的业务中台建设 | 实战派
本文将为大家分享韵达业务中台基于云原生的建设过程。主要分为三部分,第一部分是 IT 信息的发展规划,第二部分是韵达业务中台建设的详细过程,第三部分是对应云原生技术的支撑。
韵达基于云原生的业务中台建设 | 实战派
|
弹性计算 固态存储 网络协议
阿里云服务器通用型g6和计算型c6有什么区别?CPU内存比差异
阿里云服务器通用型g6和计算型c6有什么区别?一个是ECS通用型g6实例,一个是ECS计算型c6实例,CPU内存比不同,CPU均采用2.5 GHz主频的Intel Xeon Platinum 8269CY(Cascade Lake),睿频3.2 GHz
715 0
阿里云服务器通用型g6和计算型c6有什么区别?CPU内存比差异
阿里云账号个人/企业实名认证流程
阿里云账号实名认证流程(个人和企业实名认证攻略)
1604 0
阿里云账号个人/企业实名认证流程
|
编解码 数据处理 计算机视觉
手把手带你训练 CVPR2022 视频超分模型
RealBasicVSR 小课堂继续开课啦!上一期文章中我们解读了真实视频超分的文章 RealBasicVSR,今天我们将手把手带大家一起使用 MMEditing 训练 RealBasicVSR。这一次我们会重点关注数据处理,希望大家看完这一期的内容后能更了解 RealBasicVSR 的训练方式和 MMEditing 的数据处理流程。
739 0
手把手带你训练 CVPR2022 视频超分模型