TensorFlow学习笔记--CIFAR-10 图像识别

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: TensorFlow学习笔记--CIFAR-10 图像识别

零、学习目标

tensorflow 数据读取原理

深度学习数据增强原理

一、CIFAR-10数据集简介

是用于普通物体识别的小型数据集,一共包含 10个类别 的 RGB彩色图片(包含:(飞机、汽车、鸟类、猫、鹿、狗、蛙、马、船、卡车)。图片大小均为 3232像素*,数据集中一共有 50000 张训练图片和 1000 张测试图片。部分代码来自于tensorflow官方,以下表格列出了所需的官方代码。

image.png

二、下载CIFAR-10数据

在工程根目录创建 cifar10_download.py ,输入如下代码创建下载数据的程序:

# 引入当前目录中已经编写好的cifar10模块
import cifar10
# 引入tensorflow
import tensorflow as tf
# 定义全局变量存储器,可用于命令行参数的处理
# tf.app.flags.FLAGS 是tensorflow 内部的一个全局变量存储器
FLAGS = tf.app.flags.FLAGS
# 在cifar10 模块中预先定义了cifar-10的数据存储路径,修改数据存储路径
FLAGS.data_dir = 'cifar10_data/'
# 如果数据不存在,则下载
cifar10.maybe_download_and_extract()

执行完这段代码后,CIFAR-10数据集会下载到目录 cifar10_data 目录下。默认的存储路径书 tmp/cifar10_data,定义在代码文件cifar10.py中,位置大约在53行附近。

修改完数据存储路径后,通过 cifar10.maybe_download_and_extract()来下载数据,下载期间如果数据存在于数据文件夹中则跳过下载数据,反之下载数据。下载成功后会提示 Successfully downloaded cifar-10-binary.tar.gz 170052171 bytes.

下载完成后,cifar10_data/cifar-10-batches-bin 中将出现8个文件,名称和用途如下表:

image.png

三、TensorFlow 读取数据的机制

  1. 普通方式

将硬盘上的数据读入内存中,然后提供给CPU或者GPU处理

  1. 内存队列方式

普通方式读取数据会出现GPU或CPU在一段时间内存在空闲,导致运算效率降低。利用内存队列,将数据读取和计算放在两个线程中,读取线程只需向内存队列中读入文件,而计算线程只用从内存队列中读取计算需要的数据,这样就解决了GPU或者CPU的空闲问题。

  1. 文件名队列+内存队列

TensorFlow采用 文件名队列+内存队列,这种方式可以很好的管理epoch(注1)和避免计算单元的空闲问题。举个例子,假设有三个数据文件要执行一次epoch,那么就在文件名队列中放入这三个数据文件各一次,并且在最后放入的数据文件后面标注队列结束。内存队列依次从文件名队列的顶部读取数据文件,读到结束标记后就会自动抛出异常,捕获这个异常后程序就可以结束。如果是执行N次epoch,那么就把每个数据文件放入文件名队列N次。


注1:

对于数据集来说,运行一次epoch就是将数据集里的所有数据完整的计算一遍,以此类推运行N次epoch就是将数据集里的所有数据完整的计算N遍


四、创建文件名队列和内存队列

  1. 创建文件名队列

利用tensorflow的 tf.train.string_input_producer()(注2) 函数。给函数传入一个文件名列表,系统将会转换未文件名队列。tf.train.string_input_producer() 函数有两个重要的参数,分别是 num_epochs 和 shuffle ,num_epochs表示epochs数,shuffle表示是否打乱文件名队列内文件的顺序,如果是True表示不按照文件名列表添加的顺序进入文件名队列,如果是Flase表示按照文件名列表添加的顺序进入文件名队列。

  1. 创建内存队列

在tensorflow中不手动创建内存队列,只需使用 reader对象从文件名队列中读取数据就可以了。


注2:

使用tf.train.string_input_producer() 创建完文件名队列后,文件名并没有被加入到队列中,如果此时开始计算,会导致整个系统处于阻塞状态。

在创建完文件名队列后,应调用 tf.train.start_queue_runners方法才会启动文件名队列的填充,整个程序才能正常运行起来。

3. 代码

import tensorflow as tf
# 新建session
with tf.Session() as sess:
    # 要读取的三张图片
    filename = ['img/1.jpg', 'img/2.jpg', 'img/3.jpg']
    # 创建文件名队列
    filename_queue = tf.train.string_input_producer(filename, num_epochs=5, shuffle=False)
    reader = tf.WholeFileReader()
    key, value = reader.read(filename_queue)
    # 初始化变量(epoch)
    tf.local_variables_initializer().run()
    threads = tf.train.start_queue_runners(sess=sess)
    i = 0
    while True:
        i += 1
        # 获取图片保存数据
        image_data = sess.run(value)
        with open('read/test_%d.jpg' % i, 'wb') as f:
            f.write(image_data)

五、数据增强

对于图像数据来说,数据增强方法就是利用平移、缩放、颜色等变换增大训练集样本个数,从而达到更好的效果(注3),使用数据增强可以大大提高模型的泛化能力,并且能够预防过拟合。

常用的图像数据增强方法如下表

image.png

注3:

使用数据增强的方法前提是,这些数据增强方法不会改变图像的原有标签。比如数字6的图片,经过上下翻转之后就变成了数字9的图片。

六、CIFAR-10识别模型

建立模型的代码在cifar10.py文件额inference函数中,代码在这里不进行详解,读者可以去阅读代码中的注释。

这里我们通过以下命令训练模型:

python cifar10_train.py --train_dir cifar10_train/ --data_dir cifar10_data/

这段命令中 –data_dir cifar10_data/ 表示数据保存的位置, –train_dir cifar10_train/ 表示保存模型参数和训练时日志信息的位置


七、查看训练进度

在训练的时候我们往往需要知道损失的变化和每层的训练情况,这个时候我们就会用到tensorflow提供的 TensorBoard。打开一个新的命令行,输入如下命令:

tensorboard --logdir cifar10_train/

其中 –logdir cifar10_train/ 表示模型训练日志保存的位置,运行该命令后将会在命令行看到类似如下的内容

image.png

在浏览器上输入显示的地址,即可访问TensorBoard。简单解释一下常用的几个标签:

image.png

八、检测模型的准确性

在命令行窗口输入如下命令:

python cifar10_eval.py --data_dir cifar10_data/ --eval_dir cifar10_eval/ --checkpoint_dir cifar10_train/

–data_dir cifar10_data/ 表 示 CIFAR-10 数据集的存储位置 。

–heckpoint_dir cifar1O_train/ 则表示程序模型保存在 cifar10_train/文件夹下。

–eval_dir cifar10_eval/ 指定了一个保存测试信息的文件夹

输入以下命令,在TensorBoard上查看准确率岁训练步数的变化情况:

tensorboard --logdir cifar10_eval/ --port 6007

在浏览器中输入:http://127.0.0.1:6007,展开 Precision @ 1 选项卡,就可以看到准确率随训练步数变化的情况。


九、代码下载

Git地址:https://gitee.com/bugback/ai_learning.git

百度网盘:https://pan.baidu.com/s/17HdfI2R9gsOMKi4pgundSA


目录
相关文章
|
1月前
|
机器学习/深度学习 算法 TensorFlow
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
动物识别系统。本项目以Python作为主要编程语言,并基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集4种常见的动物图像数据集(猫、狗、鸡、马)然后进行模型训练,得到一个识别精度较高的模型文件,然后保存为本地格式的H5格式文件。再基于Django开发Web网页端操作界面,实现用户上传一张动物图片,识别其名称。
73 1
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
|
11天前
|
缓存 TensorFlow 算法框架/工具
TensorFlow学习笔记(一): tf.Variable() 和tf.get_variable()详解
这篇文章详细介绍了TensorFlow中`tf.Variable()`和`tf.get_variable()`的使用方法、参数含义以及它们之间的区别。
31 0
|
4月前
|
机器学习/深度学习 人工智能 算法
海洋生物识别系统+图像识别+Python+人工智能课设+深度学习+卷积神经网络算法+TensorFlow
海洋生物识别系统。以Python作为主要编程语言,通过TensorFlow搭建ResNet50卷积神经网络算法,通过对22种常见的海洋生物('蛤蜊', '珊瑚', '螃蟹', '海豚', '鳗鱼', '水母', '龙虾', '海蛞蝓', '章鱼', '水獭', '企鹅', '河豚', '魔鬼鱼', '海胆', '海马', '海豹', '鲨鱼', '虾', '鱿鱼', '海星', '海龟', '鲸鱼')数据集进行训练,得到一个识别精度较高的模型文件,然后使用Django开发一个Web网页平台操作界面,实现用户上传一张海洋生物图片识别其名称。
170 7
海洋生物识别系统+图像识别+Python+人工智能课设+深度学习+卷积神经网络算法+TensorFlow
|
4月前
|
机器学习/深度学习 人工智能 算法
【乐器识别系统】图像识别+人工智能+深度学习+Python+TensorFlow+卷积神经网络+模型训练
乐器识别系统。使用Python为主要编程语言,基于人工智能框架库TensorFlow搭建ResNet50卷积神经网络算法,通过对30种乐器('迪吉里杜管', '铃鼓', '木琴', '手风琴', '阿尔卑斯号角', '风笛', '班卓琴', '邦戈鼓', '卡萨巴', '响板', '单簧管', '古钢琴', '手风琴(六角形)', '鼓', '扬琴', '长笛', '刮瓜', '吉他', '口琴', '竖琴', '沙槌', '陶笛', '钢琴', '萨克斯管', '锡塔尔琴', '钢鼓', '长号', '小号', '大号', '小提琴')的图像数据集进行训练,得到一个训练精度较高的模型,并将其
65 0
【乐器识别系统】图像识别+人工智能+深度学习+Python+TensorFlow+卷积神经网络+模型训练
|
6天前
|
机器学习/深度学习 SQL 数据采集
基于tensorflow、CNN网络识别花卉的种类(图像识别)
基于tensorflow、CNN网络识别花卉的种类(图像识别)
11 1
|
1月前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
86 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
使用Python和TensorFlow实现图像识别
【8月更文挑战第31天】本文将引导你了解如何使用Python和TensorFlow库来实现图像识别。我们将从基本的Python编程开始,逐步深入到TensorFlow的高级功能,最后通过一个简单的代码示例来展示如何训练一个模型来识别图像。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息。
148 53
|
11天前
|
TensorFlow 算法框架/工具
Tensorflow学习笔记(二):各种tf类型的函数用法集合
这篇文章总结了TensorFlow中各种函数的用法,包括创建张量、设备管理、数据类型转换、随机数生成等基础知识。
22 0
|
2月前
|
机器学习/深度学习 人工智能 算法
【眼疾病识别】图像识别+深度学习技术+人工智能+卷积神经网络算法+计算机课设+Python+TensorFlow
眼疾识别系统,使用Python作为主要编程语言进行开发,基于深度学习等技术使用TensorFlow搭建ResNet50卷积神经网络算法,通过对眼疾图片4种数据集进行训练('白内障', '糖尿病性视网膜病变', '青光眼', '正常'),最终得到一个识别精确度较高的模型。然后使用Django框架开发Web网页端可视化操作界面,实现用户上传一张眼疾图片识别其名称。
78 9
【眼疾病识别】图像识别+深度学习技术+人工智能+卷积神经网络算法+计算机课设+Python+TensorFlow
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
利用Python和TensorFlow实现简单图像识别
【8月更文挑战第31天】在这篇文章中,我们将一起踏上一段探索人工智能世界的奇妙之旅。正如甘地所言:“你必须成为你希望在世界上看到的改变。” 通过实践,我们不仅将学习如何使用Python和TensorFlow构建一个简单的图像识别模型,而且还将探索如何通过这个模型理解世界。文章以通俗易懂的方式,逐步引导读者从基础到高级,体验从编码到识别的整个过程,让每个人都能在AI的世界中看到自己的倒影。