深度学习与遗传算法的碰撞——利用遗传算法优化深度学习网络结构(详解与实现)

简介: 本文使用MNIST数据集和Tensorflow构建简单的全连接网络,利用遗传算法优化隐藏层数和每层的节点数,使用的原理同样适用于更复杂的网络和数据集。

前言

近年来,深度学习模型性能取得了飞跃,可以在单个网络中使用大量隐藏层。训练深度学习模型可能会占用大量计算资源,并且通常在图形处理单元(GPU)上进行,同时为了获得最优的模型性能,可能需要网络架构和超参数的反复修改和调整,通常此过程取决于实际问题和网络架构设计人员的经验,而利用遗传算法可以将此过程自动化,同时可以在可接受的时间开销内找到更好的网络架构。专门的深度学习库,例如 TensorFlow,能够利用基于 GPU 的计算平台,本文使用 MNIST 数据集和 Tensorflow 构建简单的全连接网络,利用遗传算法优化隐藏层数和每层的节点数。虽然全连接网络是十分基础简单的网络,但是,使用的原理同样适用于更复杂的网络和数据集。

以下是所用库:

  1. tensorflow2.x
  2. deap
  3. matplotlib

优化深度学习分类器的架构

在创建神经网络模型可以执行给定的机器学习任务时,一项关键工作是设计网络体系结构的配置。对于多层感知器,输入层和输出层中的节点数取决于当前问题的特征。因此,要做出的选择是关于隐藏层——有多少层以及每层有多少个节点。可以采用一些经验进行尝试,但是在多数情况下,确定最佳架构可能需要反复试验。

处理网络体系结构参数的一种方法是将它们视为模型的超参数,使用这些超参数构建网络,并将训练后网络的性能作为适应度进行评价。接下来,将使用遗传算法找到隐藏层的最佳组合。

20210106143317224.png

隐藏层配置的染色体表示

由于 MLP 的体系结构由隐藏层配置决定,在 tensorflow.keras 中可通过改变 Dense 层的 units 参数获得节点数不同的全连接隐藏层:

Dense(units, activation=None,...)

同时,可以通过 for 来构建所需层数,例如,如果要为 MLP 配置三个有 20 个节点的隐藏层,则可以通过以下方式:

self.model=Sequential()
forlinrange(3):  
self.model.add(layers.Dense(20,activation='relu'))

因此,我们需要提出既可以表示层数又可以表示每一层节点数的染色体。

同时,为了能够使用标准遗传算子,使用固定长度的染色体表示形式。使用这种方法时,预先确定最大层数,但为了层数可变,可以在染色体中设置无效位(也可以称为终止参数),使模型构建提前终止。例如,将网络限制为四个隐藏层,则染色体将如下所示:

[n1, n2, n3, n4]

其中,ni 表示 i 层中的节点数。

为了控制网络中隐藏层的实际数量,其中一些值可能为零或负数。该值意味着之后不会再有其他层添加到网络:

1. 染色体 [10, 20, -5, 15] 表示元组 (10, 20),因为 -5 是无效位。

2. 染色体 [10, 0, -5, 15] 表示元组 (10, ),因为 0 是无效位。

3. 染色体 [10, 20, 5, -15] 表示元组 (10, 20, 5),因为 -15 是无效位。

4. 染色体 [10, 20, 5, 15] 表示元组 (10, 20, 5, 15)。

为了保证至少有一个隐藏层,可以强制第一个参数始终大于零。其他层参数可以在零附近分布,以便可以控制它们成为终止参数。

另外,由于染色体中值有限定区间,可以选择使用浮点数列表构建染色体。使用浮点数列表使我们能够使用现有的遗传算子。为了构建网络可以使用round()函数可以将浮点数转换回整数:

1. 染色体 [9.35, 10.71, -2.51, 17.99] 可以转化为元组 (9, 11)

2. 染色体 [9.35, 10.71, 2.51, -17.99] 可以转化为元组 (9, 11, 3)

要评估构建的网络结构,需要创建实现这些层的 MLP 分类器,对其进行训练并进行评估。

评估个体的适应度得分

MLPLayers 类封装了 MNIST 数据集的 MLP 分类器的构建以及模型准确率的评估。

MLPLayers 类主要包括以下方法:

1. preprocess(self,x,y) 用于构建训练数据集的预处理

2. initDataset(self) 用于构建训练数据集

3. convertParams(self,params) 将 params 的列表转换为可以有效构建模型的元组

4. getAccuracy(self,params) 构建模型,训练,并返回最后一个 epoch 的验证准确率,用于适应度评估。

5. testLayer(self),使用经验值构建的分类模型,用于和优化得到的网络进行对比

6. formatParams(self, params) 用于格式化输出染色体

classMLPLayers:
def__init__(self):
self.initDataset()
defpreprocess(self,x,y):
x=tf.reshape(x, [-1])  
returnx,ydefinitDataset(self):
        (self.X_train,self.y_train),(self.X_test,self.y_test) =datasets.mnist.load_data()
self.X_train=tf.convert_to_tensor(self.X_train,dtype=tf.float32) /255.self.X_test=tf.convert_to_tensor(self.X_test,dtype=tf.float32) /255.self.y_train=tf.convert_to_tensor(self.y_train,dtype=tf.int32)
self.y_test=tf.convert_to_tensor(self.y_test,dtype=tf.int32)
self.y_train=tf.one_hot(self.y_train,depth=10)
self.y_test=tf.one_hot(self.y_test,depth=10)
self.train_db=tf.data.Dataset.from_tensor_slices((self.X_train,self.y_train))
self.validation_db=tf.data.Dataset.from_tensor_slices((self.X_test,self.y_test))
self.train_db=self.train_db.shuffle(1000).map(self.preprocess).batch(128)
self.validation_db=self.validation_db.shuffle(1000).map(self.preprocess).batch(128)
defconvertParams(self,params):
ifround(params[1]) <=0:
hiddenLayerSizes=round(params[0]),
elifround(params[2]) <=0:
hiddenLayerSizes= (round(params[0]), round(params[1]))
elifround(params[3]) <=0:
hiddenLayerSizes= (round(params[0]), round(params[1]), round(params[2]))
else:
hiddenLayerSizes= (round(params[0]), round(params[1]), round(params[2]), round(params[3]))
returnhiddenLayerSizesdefgetAccuracy(self,params):
#将染色体转化为可以有效构建网络的元组hiddenLayerSizes=self.convertParams(params)
self.model=Sequential()
#构建网络forlinhiddenLayerSizes:
self.model.add(layers.Dense(l,activation='relu'))
self.model.add(layers.Dense(10,activation='relu'))
self.model.build(input_shape=(4,28*28))
self.model.summary()
self.model.compile(optimizer=optimizers.Adam(lr=0.01),
loss=losses.CategoricalCrossentropy(from_logits=True),
metrics=['accuracy'])
# 指定训练集为db,验证集为val_db,训练5个epochs,每1个epoch验证一次history=self.model.fit(self.train_db, epochs=5, validation_data=self.validation_db, validation_freq=1,verbose=2)
#返回最后一个epoch训练后的验证准确率,用于适应度评估returnhistory.history['val_accuracy'][-1]
deftestLayer(self):
# 创建5层的全连接层网络network=Sequential([layers.Dense(256, activation='relu'),
layers.Dense(128, activation='relu'),
layers.Dense(64, activation='relu'),
layers.Dense(32, activation='relu'),
layers.Dense(10)])
network.build(input_shape=(4, 28*28))
network.summary()
# 采用Adam优化器,学习率为0.01;采用交叉熵损失函数,包含Softmaxnetwork.compile(optimizer=optimizers.Adam(lr=0.01),
loss=losses.CategoricalCrossentropy(from_logits=True),
metrics=['accuracy'] # 设置测量指标为准确率        )
# 指定训练集为db,验证集为val_db,训练5个epochs,每1个epoch验证一次history=network.fit(self.train_db, epochs=5, validation_data=self.validation_db, validation_freq=1,verbose=2)
#打印结果print(history.history['val_accuracy'][-1])
defformatParams(self, params):
return"'hidden_layer_sizes'={}".format(self.convertParams(params))

使用遗传算法优化MLP架构

现在,我们已经有了 MLP 的体系结构配置,以及确定每种配置的 MLP 准确率的方法,接下来,创建基于遗传算法的优化程序以对配置进行搜索——隐藏层的数量以及每层中的节点数量——产生最佳分类准确率。

详细的步骤在注释中进行介绍:

#创建MlpLayersTest类的实例,用于测试隐藏层架构的各种组合test=MLPLayers()
# 首先为代表隐藏层的每个float值设置上下边界。第一个隐藏层的范围为[100,300],而其余的层则从负值开始,增加终止层数的机会:BOUNDS_LOW= [100,-25,-50,-75]
BOUNDS_HIGH= [300,200,100,50]
NUM_OF_PARAMS=len(BOUNDS_LOW)
#超参数:POPULATION_SIZE=50P_CROSSOVER=0.9P_MUTATION=0.5MAX_GENERATIONS=20HALL_OF_FAME_SIZE=5CROWDING_FACTOR=10.0toolbox=base.Toolbox()
#定义最大化适用度策略:creator.create("FitnessMax",base.Fitness,weights=(1.0,))
#基于列表创建个体类:creator.create("Individual",list,fitness=creator.FitnessMax)
#由于解由一系列不同区间的浮点值表示,因此我们使用以下循环并为每个区间创建一个单独的toolbox运算符(layer_size_attribute),用于在适当范围内生成随机浮点值:foriinrange(NUM_OF_PARAMS):
#"layer_size_attribute_0","layer_size_attribute_1"...toolbox.register("layer_size_attribute_"+str(i),
random.uniform,
BOUNDS_LOW[i],
BOUNDS_HIGH[i])
#创建layer_size_attributes元组,其中包含我们刚刚为每个隐藏层创建的单独的浮点数生成器:layer_size_attributes= ()
foriinrange(NUM_OF_PARAMS):
layer_size_attributes=layer_size_attributes+ (toolbox.__getattribute__("layer_size_attribute_"+str(i)),)
#将此layer_size_attributes元组与DEAP的内置initCycle()运算符结合使用,以创建一个新的individualCreator运算符,该运算符将随机生成的隐藏层值组合起来填充单个实例toolbox.register("individualCreator",tools.initCycle,creator.Individual,layer_size_attributes,n=1)
#定义种群创建运算符:toolbox.register("populationCreator",tools.initRepeat,list,toolbox.individualCreator)
#使用类的getAccuracy()方法进行适应度评估defclassificationAccuracy(individual):
returntest.getAccuracy(individual),
toolbox.register("evaluate",classificationAccuracy)
#遗传算子定义:对于选择运算符,使用锦标赛大小为2的锦标赛选择,使用专门用于有界浮动列表染色体的交叉和变异运算符,并为它们提供定义的上下限:toolbox.register("select",tools.selTournament,tournsize=2)
toolbox.register("mate",tools.cxSimulatedBinaryBounded,low=BOUNDS_LOW,up=BOUNDS_HIGH,eta=CROWDING_FACTOR)
toolbox.register("mutate",tools.mutPolynomialBounded,low=BOUNDS_LOW,up=BOUNDS_HIGH,eta=CROWDING_FACTOR,indpb=1.0/NUM_OF_PARAMS)

带精英主义策略的遗传流程函数

使用名人堂可以用来保留进化过程中种群中曾经存在的最佳个体,并不会由于选择,交叉或变异而失去了它们,HallOfFame 类在 tools 模块中实现。

将Halloffame对象用于实现精英主义。 Halloffame对象中包含的个体被直接注入下一代,并且不受选择,交叉和突变的遗传算子的影响。

遗传流程

defmain():
#创建初始种群:population=toolbox.populationCreator(n=POPULATION_SIZE)
#注册要监听的统计数据:stats=tools.Statistics(lambdaind:ind.fitness.values)
stats.register("max",np.max)
stats.register("avg",np.mean)
#定义名人堂对象:hof=tools.HallOfFame(HALL_OF_FAME_SIZE)
#使用精英主义策略执行遗传流程:population,logbook=eaSimpleWithElitism(population,toolbox,
cxpb=P_CROSSOVER,mutpb=P_MUTATION,
ngen=MAX_GENERATIONS,
stats=stats,halloffame=hof,verbose=True)
# 打印找到的最佳解:print("- Best solution is: ",test.formatParams(hof.items[0]),", accuracy = ",hof.items[0].fitness.values[0])
# 获取统计数据:maxFitnessValues, meanFitnessValues=logbook.select("max", "avg")
if__name__=="__main__":
main()

结果分析

查看找到的最佳解

- Best solution is:  'hidden_layer_sizes'=(135,) , accuracy =0.9731000065803528

可以到,仅使用一层具有 135 个节点的隐藏层,准确率就达到了 97.31.

算法运行过程中统计结果如下:

绘图98.png

而依靠经验设计的网络结构及其准确率如下

Layer (type)                 Output Shape              Param #    =================================================================dense_2812 (Dense)           (4, 256)                  200960_________________________________________________________________
dense_2813 (Dense)           (4, 128)                  32896_________________________________________________________________
dense_2814 (Dense)           (4, 64)                   8256_________________________________________________________________
dense_2815 (Dense)           (4, 32)                   2080_________________________________________________________________
dense_2816 (Dense)           (4, 10)                   330=================================================================Total params: 244,522
Trainable params: 244,522
Non-trainable params: 0...
469/469 - 1s - loss: 0.0911 - accuracy: 0.9754 - val_loss: 0.1547 - val_accuracy: 0.9653

可以看出,相比于精心设计的网络结构,遗传算法得到的网络结构,在 MNIST 数据集上有更高的准确率,虽然提升并不十分明显,但是考虑到:MNIST 数据集较简单,以及相比精心设计的网络的参数量(244522),遗传算法找到的最佳解的参数量仅为 107335(28*28*135+135*10+135+10),参数量减少一倍以上,可以说遗传算法的优化已经达到预期。可以通过将更多超参数加入遗传算法优化的列表中,查看不同效果。

相关文章
|
4天前
|
存储 关系型数据库 分布式数据库
PolarDB的PolarStore存储引擎以其高效的索引结构、优化的数据压缩算法、出色的事务处理能力著称
PolarDB的PolarStore存储引擎以其高效的索引结构、优化的数据压缩算法、出色的事务处理能力著称。本文深入解析PolarStore的内部机制及优化策略,包括合理调整索引、优化数据分布、控制事务规模等,旨在最大化其性能优势,提升数据存储与访问效率。
15 5
|
10天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)入门
【10月更文挑战第41天】在人工智能的璀璨星空下,卷积神经网络(CNN)如一颗耀眼的新星,照亮了图像处理和视觉识别的路径。本文将深入浅出地介绍CNN的基本概念、核心结构和工作原理,同时提供代码示例,带领初学者轻松步入这一神秘而又充满无限可能的领域。
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络:从理论到实践
【10月更文挑战第35天】在人工智能的浪潮中,深度学习技术以其强大的数据处理能力成为科技界的宠儿。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,在图像识别和视频分析等领域展现出了惊人的潜力。本文将深入浅出地介绍CNN的工作原理,并结合实际代码示例,带领读者从零开始构建一个简单的CNN模型,探索其在图像分类任务中的应用。通过本文,读者不仅能够理解CNN背后的数学原理,还能学会如何利用现代深度学习框架实现自己的CNN模型。
|
15天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第36天】探索卷积神经网络(CNN)的神秘面纱,揭示其在图像识别领域的威力。本文将带你了解CNN的核心概念,并通过实际代码示例,展示如何构建和训练一个简单的CNN模型。无论你是深度学习的初学者还是希望深化理解,这篇文章都将为你提供有价值的见解。
|
18天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
12天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
44 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
19天前
|
人工智能 算法 大数据
Linux内核中的调度算法演变:从O(1)到CFS的优化之旅###
本文深入探讨了Linux操作系统内核中进程调度算法的发展历程,聚焦于O(1)调度器向完全公平调度器(CFS)的转变。不同于传统摘要对研究背景、方法、结果和结论的概述,本文创新性地采用“技术演进时间线”的形式,简明扼要地勾勒出这一转变背后的关键技术里程碑,旨在为读者提供一个清晰的历史脉络,引领其深入了解Linux调度机制的革新之路。 ###
|
28天前
|
机器学习/深度学习 搜索推荐 安全
深度学习之社交网络中的社区检测
在社交网络分析中,社区检测是一项核心任务,旨在将网络中的节点(用户)划分为具有高内部连接密度且相对独立的子群。基于深度学习的社区检测方法,通过捕获复杂的网络结构信息和节点特征,在传统方法基础上实现了更准确、更具鲁棒性的社区划分。
48 7
|
29天前
|
存储 缓存 算法
优化轮询算法以提高资源分配的效率
【10月更文挑战第13天】通过以上这些优化措施,可以在一定程度上提高轮询算法的资源分配效率,使其更好地适应不同的应用场景和需求。但需要注意的是,优化策略的选择和实施需要根据具体情况进行详细的分析和评估,以确保优化效果的最大化。
|
16天前
|
机器学习/深度学习 人工智能 自动驾驶
深入解析深度学习中的卷积神经网络(CNN)
深入解析深度学习中的卷积神经网络(CNN)
32 0
下一篇
无影云桌面