# 摘要

1、如何加载图片数据，并处理数据。

2、如果将标签转为onehot编码

3、如何使用数据增强。

4、如何使用mixup。

5、如何切分数据集。

6、如何加载预训练模型。

# 训练

## 1、Mixup

mixup是一种非常规的数据增强方法，一个和数据无关的简单数据增强原则，其以线性插值的方式来构建新的训练样本和标签。最终对标签的处理如下公式所示，这很简单但对于增强策略来说又很不一般。

$\left ( x_{i},y_{i} \right )$,$\left ( x_{j},y_{j} \right )$两个数据对是原始数据集中的训练样本对（训练样本和其对应的标签）。其中$\lambda$是一个服从B分布的参数,$\lambda\sim Beta\left ( \alpha ,\alpha \right )$ 。Beta分布的概率密度函数如下图所示，其中$\alpha \in \left [ 0,+\infty \right ]$

import numpy as np

class MixupGenerator():
def __init__(self, X_train, y_train, batch_size=32, alpha=0.2, shuffle=True, datagen=None):
self.X_train = X_train
self.y_train = y_train
self.batch_size = batch_size
self.alpha = alpha
self.shuffle = shuffle
self.sample_num = len(X_train)
self.datagen = datagen

def __call__(self):
while True:
indexes = self.__get_exploration_order()
itr_num = int(len(indexes) // (self.batch_size * 2))

for i in range(itr_num):
batch_ids = indexes[i * self.batch_size * 2:(i + 1) * self.batch_size * 2]
X, y = self.__data_generation(batch_ids)

yield X, y

def __get_exploration_order(self):
indexes = np.arange(self.sample_num)

if self.shuffle:
np.random.shuffle(indexes)

return indexes

def __data_generation(self, batch_ids):
_, h, w, c = self.X_train.shape
l = np.random.beta(self.alpha, self.alpha, self.batch_size)
X_l = l.reshape(self.batch_size, 1, 1, 1)
y_l = l.reshape(self.batch_size, 1)

X1 = self.X_train[batch_ids[:self.batch_size]]
X2 = self.X_train[batch_ids[self.batch_size:]]
X = X1 * X_l + X2 * (1 - X_l)

if self.datagen:
for i in range(self.batch_size):
X[i] = self.datagen.random_transform(X[i])
X[i] = self.datagen.standardize(X[i])

if isinstance(self.y_train, list):
y = []

for y_train_ in self.y_train:
y1 = y_train_[batch_ids[:self.batch_size]]
y2 = y_train_[batch_ids[self.batch_size:]]
y.append(y1 * y_l + y2 * (1 - y_l))
else:
y1 = self.y_train[batch_ids[:self.batch_size]]
y2 = self.y_train[batch_ids[self.batch_size:]]
y = y1 * y_l + y2 * (1 - y_l)

return X, y

## 2、 导入需要的数据包，设置全局参数

import numpy as np
import cv2
from tensorflow.keras.preprocessing.image import img_to_array
from sklearn.model_selection import train_test_split
from tensorflow.python.keras.callbacks import ModelCheckpoint, ReduceLROnPlateau
from tensorflow.keras.applications.resnet import ResNet50
import os

from tensorflow.python.keras.utils import np_utils
from tensorflow.python.keras.layers import Dense
from tensorflow.python.keras.models import Sequential

from mixup_generator import MixupGenerator

norm_size = 224
datapath = 'data/train'
EPOCHS = 20
INIT_LR = 1e-3
labelList = []
dicClass = {'Black-grass': 0, 'Charlock': 1, 'Cleavers': 2, 'Common Chickweed': 3, 'Common wheat': 4, 'Fat Hen': 5, 'Loose Silky-bent': 6,
'Maize': 7, 'Scentless Mayweed': 8, 'Shepherds Purse': 9, 'Small-flowered Cranesbill': 10, 'Sugar beet': 11}
classnum = 12
batch_size = 4


tensorflow说完了，再说明一下几个重要的全局参数：

• norm_size = 224 ，ResNet50默认的图片尺寸是224×224。
• datapath = 'data/train' 设置图片存放的路径，在这里要说明一下如果图片很多，一定不要放在工程目录下，否则Pycharm加载工程的时候会浏览所有的图片，很慢很慢。
• EPOCHS = 100 epochs的数量，关于epoch的设置多少合适，这个问题很纠结，一般情况设置300足够了，如果感觉没有训练好，再载入模型训练。
• INIT_LR = 1e-3 学习率，一般情况从0.001开始逐渐降低，也别太小了到1e-6就可以了。
• classnum = 12 类别数量，数据集有12个类别，所有就定义12类。
• batch_size = 4，batchsize，根据硬件的情况和数据集的大小设置，太小了loss浮动太大，太大了收敛不好，根据经验来，一般设置为2的次方。windows可以通过任务管理器查看显存的占用情况。

Ubuntu可以使用nvidia-smi查看显存的占用。

## 3、 加载图片

1. 读取图像
2. 用指定的大小去resize图像。
3. 将图像转为数组
4. 图像归一化
5. 标签onehot

def loadImageData():
imageList = []
listClasses = os.listdir(datapath)# 类别文件夹
print(listClasses)
for class_name in listClasses:
label_id = dicClass[class_name]
class_path=os.path.join(datapath,class_name)
image_names=os.listdir(class_path)
for image_name in image_names:
image_full_path = os.path.join(class_path, image_name)
labelList.append(label_id)
image = cv2.imdecode(np.fromfile(image_full_path, dtype=np.uint8), -1)
image = cv2.resize(image, (norm_size, norm_size), interpolation=cv2.INTER_LANCZOS4)
if image.shape[2] >3:
image=image[:,:,:3]
print(image.shape)
image = img_to_array(image)
imageList.append(image)
imageList = np.array(imageList) / 255.0
return imageList

print("开始加载数据")
print(type(imageArr))
labelList = np.array(labelList)
print("加载数据完成")
print(labelList)
labelList = np_utils.to_categorical(labelList, classnum)
print(labelList)

trainX, valX, trainY, valY = train_test_split(imageArr, labelList, test_size=0.2, random_state=42)

## 4、图像增强

ImageDataGenerator()是keras.preprocessing.image模块中的图片生成器，同时也可以在batch中对数据进行增强，扩充数据集大小，增强模型的泛化能力。比如进行旋转，变形，归一化等等。

keras.preprocessing.image.ImageDataGenerator(featurewise_center=False,samplewise_center
=False, featurewise_std_normalization=False, samplewise_std_normalization=False,zca_whitening=False,
zca_epsilon=1e-06, rotation_range=0.0, width_shift_range=0.0, height_shift_range=0.0,brightness_range=None, shear_range=0.0, zoom_range=0.0,channel_shift_range=0.0, fill_mode='nearest', cval=0.0, horizontal_flip=False, vertical_flip=False, rescale=None, preprocessing_function=None,data_format=None,validation_split=0.0)

• featurewise_center: Boolean. 对输入的图片每个通道减去每个通道对应均值。
• samplewise_center: Boolan. 每张图片减去样本均值, 使得每个样本均值为0。
• featurewise_std_normalization(): Boolean()
• samplewise_std_normalization(): Boolean()
• zca_epsilon(): Default 12-6
• zca_whitening: Boolean. 去除样本之间的相关性
• rotation_range(): 旋转范围
• width_shift_range(): 水平平移范围
• height_shift_range(): 垂直平移范围
• shear_range(): float, 透视变换的范围
• zoom_range(): 缩放范围
• fill_mode: 填充模式, constant, nearest, reflect
• cval: fill_mode == 'constant'的时候填充值
• horizontal_flip(): 水平反转
• vertical_flip(): 垂直翻转
• preprocessing_function(): user提供的处理函数
• data_format(): channels_first或者channels_last
• validation_split(): 多少数据用于验证集

from tensorflow.keras.preprocessing.image import ImageDataGenerator

train_datagen = ImageDataGenerator(
rotation_range=20,
width_shift_range=0.2,
height_shift_range=0.2,
horizontal_flip=True)
val_datagen = ImageDataGenerator()  # 验证集不做图片增强
training_generator_mix = MixupGenerator(trainX, trainY, batch_size=batch_size, alpha=0.2, datagen=train_datagen)()
val_generator = val_datagen.flow(valX, valY, batch_size=batch_size, shuffle=True)

## 5、 保留最好的模型和动态设置学习率

ModelCheckpoint：用来保存成绩最好的模型。

keras.callbacks.ModelCheckpoint(filepath, monitor='val_loss', verbose=0, save_best_only=False, save_weights_only=False, mode='auto', period=1)

filepath可以是格式化的字符串，里面的占位符将会被epoch值和传入on_epoch_end的logs关键字所填入

• filename：字符串，保存模型的路径
• monitor：需要监视的值
• verbose：信息展示模式，0或1
• save_best_only：当设置为True时，将只保存在验证集上性能最好的模型
• mode：‘auto’，‘min’，‘max’之一，在save_best_only=True时决定性能最佳模型的评判准则，例如，当监测值为val_acc时，模式应为max，当检测值为val_loss时，模式应为min。在auto模式下，评价准则由被监测值的名字自动推断。
• save_weights_only：若设置为True，则只保存模型权重，否则将保存整个模型（包括模型结构，配置信息等）
• period：CheckPoint之间的间隔的epoch数

ReduceLROnPlateau：当评价指标不在提升时，减少学习率，语法如下：

keras.callbacks.ReduceLROnPlateau(monitor='val_loss', factor=0.1, patience=10, verbose=0, mode='auto', epsilon=0.0001, cooldown=0, min_lr=0)

• monitor：被监测的量
• factor：每次减少学习率的因子，学习率将以lr = lr*factor的形式被减少
• patience：当patience个epoch过去而模型性能不提升时，学习率减少的动作会被触发
• mode：‘auto’，‘min’，‘max’之一，在min模式下，如果检测值触发学习率减少。在max模式下，当检测值不再上升则触发学习率减少。
• epsilon：阈值，用来确定是否进入检测值的“平原区”
• cooldown：学习率减少后，会经过cooldown个epoch才重新进行正常操作
• min_lr:学习率的下限

checkpointer = ModelCheckpoint(filepath='weights_best_Deset_model.hdf5',
monitor='val_accuracy', verbose=1, save_best_only=True, mode='max')

reduce = ReduceLROnPlateau(monitor='val_accuracy', patience=10,
verbose=1,
factor=0.5,
min_lr=1e-6)

## 6、建立模型并训练

model = Sequential()
model.summary()
model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])

history = model.fit(training_generator_mix,
steps_per_epoch=trainX.shape[0] / batch_size,
validation_data=val_generator,
epochs=EPOCHS,
validation_steps=valX.shape[0] / batch_size,
callbacks=[checkpointer, reduce])
model.save('my_model.h5')
print(history)

## 第六步 保留训练结果，并将其生成图片

loss_trend_graph_path = r"WW_loss.jpg"
acc_trend_graph_path = r"WW_acc.jpg"
import matplotlib.pyplot as plt

print("Now,we start drawing the loss and acc trends graph...")
# summarize history for accuracy
fig = plt.figure(1)
plt.plot(history.history["accuracy"])
plt.plot(history.history["val_accuracy"])
plt.title("Model accuracy")
plt.ylabel("accuracy")
plt.xlabel("epoch")
plt.legend(["train", "test"], loc="upper left")
plt.savefig(acc_trend_graph_path)
plt.close(1)
# summarize history for loss
fig = plt.figure(2)
plt.plot(history.history["loss"])
plt.plot(history.history["val_loss"])
plt.title("Model loss")
plt.ylabel("loss")
plt.xlabel("epoch")
plt.legend(["train", "test"], loc="upper left")
plt.savefig(loss_trend_graph_path)
plt.close(2)
print("We are done, everything seems OK...")
# #windows系统设置10关机
#os.system("shutdown -s -t 10")

# 测试部分

## 单张图片预测

### 1、导入依赖

import cv2
import numpy as np
from tensorflow.keras.preprocessing.image import img_to_array
import time

### 2、设置全局参数

norm_size=224
imagelist=[]
emotion_labels = {
0: 'Black-grass',
1: 'Charlock',
2: 'Cleavers',
3: 'Common Chickweed',
4: 'Common wheat',
5: 'Fat Hen',
6: 'Loose Silky-bent',
7: 'Maize',
8: 'Scentless Mayweed',
9: 'Shepherds Purse',
10: 'Small-flowered Cranesbill',
11: 'Sugar beet',
}

### 3、加载模型

emotion_classifier=load_model("best_model.hdf5")
t1=time.time()

#### 4、处理图片

• 读取图片
• 将图片resize为norm_size×norm_size大小。
• 将图片转为数组。
• 放到imagelist中。
• imagelist整体除以255，把数值缩放到0到1之间。
image = cv2.imdecode(np.fromfile('data/test/0a64e3e6c.png', dtype=np.uint8), -1)
# load the image, pre-process it, and store it in the data list
image = cv2.resize(image, (norm_size, norm_size), interpolation=cv2.INTER_LANCZOS4)
image = img_to_array(image)
imagelist.append(image)
imageList = np.array(imagelist, dtype="float") / 255.0

### 5、预测类别

out=emotion_classifier.predict(imageList)
print(out)
pre=np.argmax(out)
emotion = emotion_labels[pre]
t2=time.time()
print(emotion)
t3=t2-t1
print(t3)

[[1.7556800e-03 8.5450716e-07 1.9150861e-05 1.9705877e-07 9.9732012e-01
8.0649025e-04 2.5912817e-07 2.2540871e-06 8.6973196e-05 6.1359890e-07
4.1976641e-08 7.3218480e-06]]
Common wheat
3.50178861618042

## 批量预测

• 加载模型。
• 定义测试集的目录
• 获取目录下的图片
• 循环循环图片

• 读取图片
• resize图片
• 转数组
• 放到imageList中
• 缩放到0到255.
• 预测
emotion_classifier=load_model("best_model.hdf5")
t1=time.time()
predict_dir = 'data/test'
test11 = os.listdir(predict_dir)
for file in test11:
filepath=os.path.join(predict_dir,file)

image = cv2.imdecode(np.fromfile(filepath, dtype=np.uint8), -1)
# load the image, pre-process it, and store it in the data list
image = cv2.resize(image, (norm_size, norm_size), interpolation=cv2.INTER_LANCZOS4)
image = img_to_array(image)
imagelist.append(image)
imageList = np.array(imagelist, dtype="float") / 255.0
out = emotion_classifier.predict(imageList)
print(out)
pre = [np.argmax(i) for i in out]

