深度学习(Deep Learning,DL)最早出现在 1986 年,后来在 2000 年左右被应用于人工神经网络(Artificial Neural Network,ANN),深度学习方法一般具有多层结构,用于学习数据多个层次的特征,深度学习是机器学习的一个子领域,对大量简单的数据学习是机器产生类似人类智能的理解能力,运用多层次非线性信息处理。近几年来,深度学习蓬勃发展,出现了一些优秀的网络结构,在分类和识别问题中,拥有较高的识别率,在很多领域内深度学习发挥着重要作用。
为了能够识别出手写数字这一图像处理问题,Le Cun 在 1998 年研究出 LeNet-5 深度学习卷积网络结构。那个时候很多银行将这一网络商用,使用场景为识别纸币和支票上的数字。LeNet-5 代表着前期卷积神经网络( Convolutional Neural Networks,CNN)。从 LeNet-5 起,CNN架构基础就分为卷积层、池化层以及全连接层。
AlexNet 可以说是 LeNet-5 的加强版本,它由 Alex Krizhevsky 在 2012 年提出,它将 CNN的基本原理应用到深层次网络之中,使用线性修正单元(Rectified Linear Unit,ReLU)解决了 Sigmoid 在深层次网络中出现的梯度弥散问题,使用层叠的卷积层来提取图像特征,在训练的时候使用 Dropout 随机忽略一部分的神经元,解决了过拟合问题。此外 AlexNet 支持多图像处理器(Graphics Processing Unit,GPU)训练,大大加快了训练的速度。
2013 年,基于 AlexNet 网络的 OverFeat 提出了边界学习的概念,实现了识别、定位、检测共用同一个网络框架,获得了 2013 年 ILSVRC 定位比赛的冠军。
2014 年,牛津大学的视觉几何网络(Visual Geometry Group Network,VGGNet),使用3×3 的卷积核扩大通道数,使用 2×2 的池化核缩小宽和高,使得网络架构更宽更深的同时,计算量的增加变缓,当进行网络测试时,使用三个卷积代替掉原来的三个全连接,测试重用训练时的参数,使得测试得到的全卷积网络因为没有全连接的限制,因而可以接收任意宽或高为的输入。
2015 年,由何凯明等人提出的残差网络(Residual Network,ResNet)网络成功解决了随着卷积网络层数加深出现的梯度爆炸问题,ResNet 在 ILSVRC 和 COCO 2015 上取得五项第一的成绩,ResNet 直接或者间接促进了深度学习的发展。
在学术界深度学习一直是一个比较热门的研究方向,这使得国内外很多科技公司都投入很多精力将深度学习应用到各个领域来。
阿里巴巴依靠顶尖的算法技术,结合阿里云可靠灵活的云计算基础设施和平台服务,将深度学习成功结合到自然语言处理、支付等实际应用中,此外,阿里巴巴成立了阿里巴巴人工智能实验室,开源了深度学习框架 X-Deep Learning。
腾讯推出了很多产品,像我们熟知的微信、 QQ 很多功能都是基于深度学习实现的,如图像识别、云隐识别等,此外,腾讯开发的手机端深度学习框架 ncnn,针对手机终端中央处理器(Central Processing Unit,CPU)进行优化,不依赖第三方就可以实现手机端执行一些深度学习 算法,将更加智能的功能提供给用户,ncnn 目前已在 QQ,Qzone,微信,天天 P 图等
上得到应用。
谷歌公司基于深度学习开发的 AlphaGo 打败了世界上顶级的围棋棋手,通过深度学习加持的谷歌翻译能够更加准确的进行翻译,此外,无人驾驶、虚拟大脑等一些新兴技术都少不了深度学习的帮助。
目前来说,深度学习发展到今天还是存在一些问题的,想要实现深度学习就必须提供大量的数据,这样才能有足够的信息来进行学习,这势必会使得绝大多数研究人员在选择研究方向的时候会优先考虑数据量多的领域。对这个问题的解决,目前虽然有一些方案,比如少样本学习、无监督学习,但这样的代价时使得性能损耗。训练好的神经网络如何在数据集之外的图像保持相同的效果也是目前深度学习一大难题,往往在基础数据集上表现很好,
但换成基础数据集之外的图像就不够优秀。对抗性的攻击会使得图像产生一定的变化,这些变化往往是人类不能够发现的,但对于深度学习网络这种变化却是致命的,对于这种变化敏感也是一大问题。