《中国人工智能学会通讯》——4.14 相关研究现状

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第4章,第4.14节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

4.14 相关研究现状

鉴于卷积神经网络在应用中表现出的优异性能,近年来很多研究工作都着力于挖掘这一种多层次模型的巨大潜能,尤其是对那些应用于大数据集图像分类的网络模型[2] 。而这些改进的 CNN 算法则可以被粗略的分为以下四类。

第一类算法使用随机化的正则方法,它们在训练过程中引入随机性,从而减少模型对训练样本的过拟合,提高模型的泛化能力。Dropout [6] 方法是这个领域内第一个被提出和广泛应用的算法。在每一轮训练迭代中,被应用了 Dropout 的神经层会随机剔除一半神经元。因此,Dropout 层中每个神经元占有权值的实际训练次数小于总迭代周期数。在 Dropout 提出之初,它主要应用在分类层之前的全连接层,这样网络全体的输出可以视为若干个子网络的输出均值:每一个子网络都包含 Dropout 层一半的神经元,同时共享之前层叠的卷积神经层进行特征提取。这样的结构能够有效地降低过拟合,提升模型在测试集上的准确率。基于相同的思路,DropConnect [8] 方法则是随机剔除神经连接:在每一次迭代中,DropConnect 层中的部分权值被随机置 0。Dropout 方法可以视为它的一种特例——将某个神经元的所有关联权值置 0。更进一步地,Stochastic Pooling [7] 将这种随机性带入了池化层。相较于 average pooling 或者 max pooling 稳定地选择池化区域中神经元输出的均值或最大值作为输出,stochastic pooling 则根据区域内神经元输出形成的多项分布,随机地选择最终输出。

另外一类优化途径是寻找更合适的 CNN 网络结构。就算整体参数规模相近,层数不同、卷积核大小不同、每层特征图数目不同的卷积神经网络,在具体任务下也会有不小的性能差异。考虑到在仅仅使用随机权值的情况下,优异网络结构仍然比普通的网络结构有更佳的识别性能。在长时间的迭代训练之前,通过测试随机权值下的模型性能,我们可以快速搜索出最合适的模型结构[9] ,而避免浪费时间训练本身结构不好的网络。除此之外,也有一些被验证的优良结构风格。受大脑皮层中的纵列分布的神经细胞启发,若干深度神经网络(DNN)被 并 排 组 合 在 一 起 构 成 了 Multi-Column DNN(MCDNN [10] )。MCDNN 网络最后的输出标签其实是若干个 DNN 输出标签的均值,这种多模型的联合判决巧妙地利用了模型平均的思想,是一种提高测试集准确率的简单而高效的策略。NiN(Networkin Network)则提出在使用普通大小卷积核(3×3或 5×5)的卷积层后紧接着两个采用 1×1 小卷积核的卷积层[11] 。这种结构可以探测更抽象的局部特征,且对网络模型的总体参数规模影响甚微。

第三类方法专注于研究高性能的激活函数。经典神经网络的 sigmoid 激活函数在大型网络中有明显的梯度弥散(vanishing gradient)问题,并且本身计算效率也不高。而使用 max(0,x) 作为激活函数的 ReLU [12] ,则因为它提供的稀疏性和本身计算快速的优点而被广泛采用。在此基础上,为了保留负值部分的有用信息,leaky ReLU [13] 允许微弱的负神经元输出:负输出值乘上一个很小的固定常数,而不是直接置 0。 至此之后,又有 PReLU [14] 、EReLu [15] 等多种更复杂的激活函数被提出,这些方法同 ReLU 相比有显著的性能优势。

最后一类方法主要优化特征提取的核心——卷积神经层。区分度高的特征在分类时的效果更好,基于这一思想,Deeply-Supervised Nets [16] (DSN)使用支持向量机(SVM)评估卷积神经层输出特征图在分类中的区分度,并相应地对代价函数进行修正,引导卷积神经层输出更差异化的特征图。而在Recursive Convolutional Network 17 中,部分卷积层与其相邻层共享同一组滤波器,在不同抽象层次上提取相同特征。然而,在一个普通的训练收敛的 CNN 中,随着神经层深度的加深,特征图的抽象程度也递增,处理这些特征图的滤波器也逐渐变得复杂。RCN 简单地跨层次复用滤波器并未获得显著的性能提升。Recurrent ConvolutionalNeural Network [18] (RCNN)也使用了相同的思想,进一步扩展了这种递归性,并且将其与更深的卷积神经网络结合,获得了不错的学习效果。

本文介绍的关联滤波器方法也是一种针对卷积层的优化算法。它在从属于同一卷积神经层的滤波器间构造固定的关联。这种方法不需要附加额外的权值和神经元,人工构造的关联旨在引领同一卷积层内的滤波器协同处理特征图,以组成更泛化的视觉特征提取器。

相关文章
|
11天前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
|
10天前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
11天前
|
机器学习/深度学习 人工智能 数据可视化
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能的发展现状如何?
【10月更文挑战第16天】人工智能的发展现状如何?
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
47 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
29 1
|
1月前
|
机器学习/深度学习 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15
46 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14
37 1
|
1月前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
37 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17
59 0