使用神经网络+遗传算法玩转Flappy Bird | 教程

简介:
本文来自AI新媒体量子位(QbitAI)


震惊!《Flappy Bird》火了这么多年,竟然没有中文名字。

没事。这不妨碍各路AI大触用这款游戏练手。比方说今天这个HTML5教程,就是教你使用神经网络+遗传算法,搭建一个玩转小鸟的AI。

提前说一下,教程最后有这个AI的代码下载。所有的代码都是使用Phaser框架使用HTML5完成的。另外,神经网络使用了突触神经网络(Synaptic Neural Network)库,而不是从零开始搭建。

Demo

上面是Demo演示的截图,访问下面这个网址,能够看到这套算法的实际效果。

http://www.askforgametask.com/html5/tutorials/flappy/

不方便观看上面在线Demo,或者没有耐心的同学,可以选择观看下面这个视频演示短片,中间有几倍速度的画面快进。


算法

这套系统的算法,主要是基于NeuroEvolution(神经进化)。这种机器学习方法,使用遗传算法(GA)等进化方法来训练人工神经网络(ANN)。

也就是说,这个例子中的机器学习=遗传算法+神经网络

人工神经网络

人工神经网络是机器学习算法的一个子集,它受到生物神经网络结构和功能的启发,这些网络是由很多彼此发送信号的神经元组成。

一个神经网络由输入层,一个或多个隐藏层,以及输出层组成。每层都有一些神经元,输入和输出层的神经元直接与外部环境相连。

在这个项目中,每个智能体(也就是小鸟)都有自己的神经网络作为闯关的AI大脑。这些大脑由三层组成,结构如下:

  1. 一个输入层,两个神经元,代表小鸟到豁口的水平距离和垂直距离
  2. 一个隐藏层,六个神经元
  3. 一个输出层,一个神经元,执行如下动作:如果输出>0.5就飞一下

上述文字,也可以用下面这张图表示:

遗传算法

我们在这里使用遗传算法,来训练和改进神经网络。

遗传算法顾名思义,是一种借鉴了自然选择和遗传过程的基于搜索的优化技术。这种算法使用相同的选择、组合交叉和变异的组合,来进行初始的随机演化。

以下是我们遗传算法实现的主要步骤:

  1. 使用随机神经网络创建10个初始的小鸟(种群)
  2. 让小鸟使用他们自己的神经网络,同时起飞玩游戏
  3. 对于每个小鸟,计算适应度函数来衡量飞行质量
  4. 当所有小鸟死亡时,使用遗传算子把当前种群评估到下一代
  5. 重复步骤2

适应度函数

对于上面的第3步,我们深入谈一下适应度函数的细节,以及如何定义。

由于我们想要使用最好的个体(小鸟)来进化种群,所以需要定义一个适应度函数。

一般来说,适应度函数用来衡量对象的质量。我们队每一只小鸟都进行测量,并从中选择合适的个体,用以生成下一代种群。

在这个项目中,我们按照小鸟的飞行距离给予奖励。另外,我们会根据小鸟和下一个豁口的距离给予惩罚。按照这种方式,就可以区别哪些飞行了同样距离的小鸟。

替代策略

对于上面第4步中遗传算法,下面是实现的步骤。基本上,最好的小鸟个体会生存下来,它们的后代会取代表现最差的那些。

  1. 现有种群的个体按照适应度进行排序
  2. 选择前四名给予奖励,直接把它们传给下一代种群
  3. 排名最高的两个个体,进行交叉组合,生成一个后代
  4. 前四名中随机选择两个个体,交叉组合产生三个后代
  5. 前四名中随机选择两个个体,生成两个直接复制的后代
  6. 对于每个后代,施加一些随机变异

代码

上述代码,可以访问如下地址获取:

https://github.com/ssusnic/Machine-Learning-Flappy-Bird

结论

在这个教程中,我们成功的让AI学会玩Flappy Bird这个游戏。在几次迭代之后,我们可以得到一个几乎无敌的小鸟。为了实现这一目标,我们采用了两种机器学习算法:人工神经网络+遗传算法。

如果你对这个项目感兴趣,未来可以尝试改变代码中的一些参数,看看会发生什么。例如,可以改变隐藏层中的神经元数量或者每一代种群的个体数量。当然还可以对适应度函数进行修改,比方加入障碍物之间的距离、重力等等因素。

以及,你可以尝试把类似的理念应用到其他游戏中去!

祝好运~

本文作者:问耕
原文发布时间:2017-08-21
相关文章
|
6月前
|
安全 网络协议 算法
Nmap网络扫描工具详细使用教程
Nmap 是一款强大的网络发现与安全审计工具,具备主机发现、端口扫描、服务识别、操作系统检测及脚本扩展等功能。它支持多种扫描技术,如 SYN 扫描、ARP 扫描和全端口扫描,并可通过内置脚本(NSE)进行漏洞检测与服务深度枚举。Nmap 还提供防火墙规避与流量伪装能力,适用于网络管理、渗透测试和安全研究。
910 1
|
6月前
|
传感器 机器学习/深度学习 算法
【UASNs、AUV】无人机自主水下传感网络中遗传算法的路径规划问题研究(Matlab代码实现)
【UASNs、AUV】无人机自主水下传感网络中遗传算法的路径规划问题研究(Matlab代码实现)
171 0
|
6月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
485 0
|
5月前
|
存储 机器学习/深度学习 监控
网络管理监控软件的 C# 区间树性能阈值查询算法
针对网络管理监控软件的高效区间查询需求,本文提出基于区间树的优化方案。传统线性遍历效率低,10万条数据查询超800ms,难以满足实时性要求。区间树以平衡二叉搜索树结构,结合节点最大值剪枝策略,将查询复杂度从O(N)降至O(logN+K),显著提升性能。通过C#实现,支持按指标类型分组建树、增量插入与多维度联合查询,在10万记录下查询耗时仅约2.8ms,内存占用降低35%。测试表明,该方案有效解决高负载场景下的响应延迟问题,助力管理员快速定位异常设备,提升运维效率与系统稳定性。
281 4
|
5月前
|
机器学习/深度学习 算法
采用蚁群算法对BP神经网络进行优化
使用蚁群算法来优化BP神经网络的权重和偏置,克服传统BP算法容易陷入局部极小值、收敛速度慢、对初始权重敏感等问题。
442 5
|
6月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
405 2
|
5月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
237 0
|
6月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
146 8
|
6月前
|
算法 数据挖掘 区块链
基于遗传算法的多式联运车辆路径网络优优化研究(Matlab代码实现)
基于遗传算法的多式联运车辆路径网络优优化研究(Matlab代码实现)
171 2
|
6月前
|
机器学习/深度学习 传感器 算法
【表面粗糙度】基于粒子群PSO算法优化-BP神经网络的表面粗糙度研究(Matlab代码实现)
【表面粗糙度】基于粒子群PSO算法优化-BP神经网络的表面粗糙度研究(Matlab代码实现)
293 7