可分离高斯神经网络:结构、分析和函数逼近

简介: 可分离高斯神经网络:结构、分析和函数逼近

邢思远1号和孙建桥2号
1.
美国加州圣路易斯奥比斯波加州理工州立大学机械工程系,邮编93407
2.
美国加利福尼亚州默塞德市加利福尼亚大学默塞德分校工程学院机械工程系,邮编95343

通信地址应为的作者。
算法2023,16(10),453;https://doi.org/10.3390/a16100453
接收日期:2023年9月4日/修订日期:2023.9月17日/接受日期:2023:9月19日/发布日期:2023-9月22日
(本文属于进化算法和机器学习一节)

摘要
高斯径向基函数神经网络(GRBFNN)一直是插值和分类的热门选择。然而,当输入向量的维数高时,它是计算密集型的。为了解决这个问题,我们利用高斯径向基函数的可分离特性,提出了一种新的前馈网络-可分离高斯神经网络(SGNN),该网络将输入数据拆分为多列,并依次将其馈送到由一元高斯函数形成的平行层中。这种结构减少了𝑂(𝑁𝑑) GRBFNN的𝑂(𝑑𝑁), 这指数地提高了SGNN的计算速度,并使其随着输入维度的增加而线性缩放。此外,SGNN可以在梯度下降训练中保留GRBFNN的Hessian矩阵的优势子空间,从而获得与GRBFNN相似的精度水平。实验证明,在三元函数近似上,SGNN可以以与GRBFNN相似的精度实现100倍的加速度。SGNN也具有更好的可训练性,并且比具有Ru-LU和Sigmoid功能的DNN更易于调整。对于具有复杂几何结构的近似函数,SGNN可以产生比Ru-LU-DNN精确三个数量级的结果,Ru-LU-NN的层数和每层神经元数是Ru-LU-DN的两倍。
关键词:函数近似;可分离高斯神经网络;高斯径向基函数;可分离函数;子空间梯度下降

1.简介
径向基函数在函数插值[1]、无网格方法[2]、聚类分类[3]、代理模型[4]、自动编码器[5]、动态系统设计[6]、网络事件检测[7]和能源生产过程建模[8]等领域有许多重要应用。高斯径向基函数神经网络(GRBFNN)是一个具有一个隐藏层的神经网络,其输出形式为

image.png

在此𝝁𝑘 和𝜎𝑘 分别是单元的中心和宽度。的响应𝐺(𝒙) 将集中在距离在3以内的区域-𝜎𝑖 从中心𝜇𝑖 在第i维度中。因此,可以选择一组具有最佳中心和宽度的稀疏分布神经元来捕捉目标函数的空间特征。径向基函数的这种局部化性质已被广泛应用于聚类和分类等应用中。
尽管已经表明,GRBFNN在泛化[9]、对输入噪声的容忍度[10]和小数据集的学习效率[10]方面优于多层感知器(MLP),但该网络对于高维输入的问题是不可扩展的。这是因为更多的神经元需要准确的预测,并且相应的计算随着维度的增加而呈指数级增加。本文旨在解决这个问题,并使网络可用于高维问题。

GRBFNN由Moody和Darken[10]以及Broomhhead和Lowe[11]在20世纪80年代末提出,用于分类和函数近似。很快就证明了GRBFNN是一个通用逼近器[12,13,14],当提供足够数量的神经元时,它可以任意接近实值函数。GRBFNN的通用逼近性证明可以解释为一个过程,从将目标函数的域划分为网格开始,然后使用局部径向基函数来逼近每个网格单元中的目标函数,然后聚合局部函数来全局逼近目标函数。很明显,这种方法对于高维问题是不可行的,因为随着输入维数的增加,它将导致神经元的指数增长。例如,近似d变量函数需要𝑂(𝑁𝑑) 神经元,每个维度的域被划分为N个片段。
为了解决这个问题,研究人员将重点放在选择GRBFNN的最佳神经元数量及其中心和宽度上,以便网络能够很好地捕捉目标非线性映射的特征。这主要通过两种策略进行了研究:(1)使用监督学习,根据规定的标准动态调整神经元(例如,数量、中心和宽度);(2)对输入进行基于无监督学习的预处理,以估计神经元的最佳位置和配置。

对于前者,Poggio和Girosi[15]以及Wettschereck和Dietterich[16]应用梯度下降来训练具有可训练中心的广义径向基函数网络。采用正则化技术[15]来保持GRBFNN的简约结构。Platt[17]开发了一种双层网络,该网络将局部高斯神经元动态分配到输出模式没有很好地表示的位置。Chen等人[18]采用了正交最小二乘(OLS)方法,并引入了一种迭代选择最佳中心的程序,该程序使误差降低率最小化,直到达到所需的精度。Huang等人[19]提出了一种生长和修剪策略,根据神经元对学习准确性的贡献动态添加/删除神经元。
后者更受欢迎,因为它将神经元的放置和权重的计算解耦,降低了程序的复杂性和计算负载。Moody和Darken[10]使用k-means聚类方法[3]来确定使训练集和中心之间的欧几里得距离最小化的中心,然后通过平均到所有单元的最近邻居的距离来计算均匀宽度。Carvalho和Brizzotti[20]研究了不同的聚类方法,如迭代优化(IO)技术、深度优先搜索(DF)以及用于RBFNN目标识别的IO和DF组合。Niros和Tsekouras[21]提出了一种层次模糊聚类方法来估计神经元和可训练变量的数量。
宽度的优化最近引起了人们的极大兴趣。姚等人[22]数值观察到,径向基函数的最佳宽度受到训练数据的空间分布和近似函数的非线性的影响。考虑到这一点,他们开发了一种方法,使用中心之间的欧几里得距离和函数的二阶导数来确定宽度。然而,计算每个神经元的宽度在计算上是昂贵的。与其为每个神经元分配不同的宽度,不如为代表不同集群的神经元分配不同宽度,以提高计算效率。因此,姚等人[23]进一步提出了一种将全局优化问题划分为几个子空间优化问题来优化宽度的方法,这些子空间优化可以同时求解,然后协调收敛到全局最优。类似地,张等人[24]引入了一种两阶段模糊聚类方法,将输入空间划分为多个重叠区域,然后用于构建局部高斯径向基函数网络。另一种应该提到的方法是可变投影[25],它用于减少优化问题中的参数数量。
然而,上述方法都受到维度诅咒的影响。随着输入维度的增长,选择最佳神经元本身可能会变得麻烦。更复杂的是,当逼近高维和几何复杂的函数时,最优神经元的数量也会呈指数级增长。此外,这些方法是为基于CPU的通用计算机设计的,但不适合使用现代面向GPU的机器学习工具[26,27],这些工具在处理分支语句和动态内存分配时计算效率显著下降。这一差距促使我们重新评估GRBFNN的结构。如前所述,高斯函数的局部化性质有利于识别低输入维数的GRBFNN的简约结构,但它也会导致高维情况下神经元数量的激增。

鉴于深度神经网络的最新发展在解决此类问题方面显示出了前景,本文的主要目标是开发GRBFNN的深度神经网络表示,或者至少是它的良好近似,显著提高计算效率,使该网络可以用于解决非常高维的问题。我们利用高斯径向基函数的可分离性质来解决这个问题。也就是说,每个高斯径向基函数都可以分解为多个一元高斯函数的乘积。基于这一性质,我们构造了一种新的神经网络,即可分离高斯神经网络(SGNN),其层数等于输入维数,每层的神经元由相应的一元高斯函数形成。通过将输入按维度划分为多列,并将其馈送到相应的层中,在前向传播中,由一元高斯函数的乘法和求和构建了与GRBFNN的输出等效的输出。值得注意的是,Poggio和Girosi[15]已经报道了高斯径向基函数的可分离性质,甚至在1990年就提出将其用于神经生物学。
SGNN提供了几个优势。
SGNN的神经元数量为𝑂(𝑑𝑁) 并且随着输入的维数线性增加,而GRBFNN的神经元数量由𝑂(𝑁𝑑) 呈指数级增长。神经元的减少也减少了可训练变量的数量𝑂(𝑁𝑑) 到𝑂(𝑑𝑁2) ,产生了比GRBFNN更紧凑的网络。
可训练变量的减少进一步降低了神经网络训练和测试期间的计算负载。如第3节所示,这导致近似三元函数的训练时间加快了100倍。
SGNN比其他MLP更容易调整。由于SGNN中的层数等于输入数据的维数,因此唯一可调的网络结构超参数是层宽度,即层中神经元的数量。与必须同时调整层的宽度和深度的其他MLP相比,这可以显著减轻调整工作量。
SGNN具有与GRBFNN相似的精度水平,特别适用于逼近具有复杂几何结构的多变量函数。在第7节中,表明SGNN可以产生复杂函数的近似值,该近似值比使用Re-LU和Sigmoid函数的MLP产生的近似值精确三个数量级。
本文的其余部分组织如下。在第2节中,我们介绍了SGNN的结构,并使用它来近似多变量实值函数。在第3节中,我们比较了SGNN和GRBFNN关于可训练变量的数量以及前向和后向传播的计算复杂性。在第4节中,我们证明了SGNN可以在梯度下降搜索中保持GRBFNN的Hessian的优势子本征空间。这种特性可以帮助SGNN保持与GRBFNN相似的精度水平,同时显著提高计算效率。在第5节中,我们展示了SGNN的计算时间随着维数的增加而线性缩放,并通过大量例子证明了其在函数近似中的有效性。在第6节和第7节中,对SGNN和GRBFNN之间以及SGNN和MLP之间进行了广泛的比较。最后,第8节对结论进行了总结。

2.可分离高斯神经网络
定义1.一个d变量函数𝑓(𝑥1.𝑥2,𝑥𝑑) 如果它可以表示为多个一元函数的乘积,则是可分离的;即。,
𝑓(𝑥1.𝑥2,𝑥𝑑)=𝑓1(𝑥1)·𝑓2(𝑥2) 𝑓𝑑(𝑥𝑑).
(3)
备注1.回想一下,方程(2)中的高斯径向基函数是可分离的,并且可以用以下形式表示
𝐺(𝐱)=∏𝑘=1.𝑑𝜑(𝑘)(𝑥𝑘),
(4) 其中𝜑(𝑘)(𝑥𝑘)=exp(−12(𝑥𝑘−𝜇𝑘)2/𝜎2.𝑘), 具有𝑘=1,2,𝑑.
方程(4)中的产品链可以通过每层具有单个神经元的前馈网络的正向传播来构建,其中𝜑(𝑘)(𝑥𝑘) 是第k层的神经元。这样,多变量高斯函数𝐺(𝐱) 在网络的输出处重构。通过在每一层中添加更多的神经元并为所有边分配权重,我们最终可以构建一个网络,其输出等效于GRBFNN的输出。图1显示了一个SGNN近似三元函数的例子。接下来,我们使用这个属性来定义SGNN。
283be4f43208f5f67160571bec6ddb47_algorithms-16-00453-g001-550.jpg

图1。SGNN的一般结构。在本文中,输出层的权重是统一的。SGNN的显著特征是输入被划分并按顺序馈送到隐藏层。因此,SGNN的深度(层)与输入维度的数量相同。隐藏层中的每个神经元都与一个单变量高斯函数相关联。前馈传播中的每条路径将导致一元高斯函数的乘法链,相当于方程(4)中所示的d维高斯径向基函数。换句话说,每个SGNN都可以转换为RGBFNN。

image.png

哪里𝑁𝑖 (𝑖=1,2,𝑑) 表示第l层的神经元的数量,𝒩(𝑙)𝑖 表示第l层的第i个高斯神经元(激活函数)的输出。此外𝜇(𝑙)𝑖, 𝜎(𝑙)𝑖 分别表示第i层的第i个中心和第l层的宽度。
输出层的权重被假设为单位,尽管它们可以是可训练的。将方程(5)-(7)代入方程(8)得到

image.png

中心𝜇(𝑙)𝑖 和宽度𝜎(𝑙)𝑖 在高斯函数中𝜑(𝑙)𝑖 也可以被视为可训练的。为简便起见,本次讨论不包括它们。

3.SGNN与GRBFNN
在不失一般性的情况下,下面的分析将假设每个隐藏层都有N个神经元。为了理解SGNN的权重与GRBFNN的权重之间的关系,我们将等式(1)和(9)等同起来,这产生了一个非线性映射

image.png

很明显,SGNN可以转化为GRBFNN。然而,当且仅当等式(13)的映射是可逆的时,GRBFNN可以转换为SGNN。
一般来说,SGNN的参数将比GRBFNN少得多,这意味着,对于大多数可能的GRFNN网络,不存在具有相同中心和宽度集的等效SGNN网络。目前尚不清楚SGNN是否能形成GRBFNN的密集子集。本文的目的是通过对十个非常不同的函数建模的大量数值实验,表明SGNN的计算成本远低于GRBFNN,但提供了相当(有时甚至更高)的精度。在这方面,即使SGNN不能导致GRBFF的任意接近近似,由于其计算效率,将其用于高维问题仍然有价值。此外,SGNN在逼近复杂函数方面可以具有优越的性能,而不是具有激活函数(如Re-LU和Sigmoid)的深度神经网络,如第7节所示。
在下文中,我们在可训练变量以及前向和后向传播的浮点运算数量方面证明了SGNN相对于GRBFNN的计算效率。
3.1可训练变量
现在让我们将SGNN中的一元高斯函数的中心和宽度视为可训练的。总数𝑁𝑡 SGNN的可训练变量的
image.png

注意GRBFNN的可训练变量的数量为𝑁𝑑, 与神经元数量相同。当层数小于或等于2时,SGNN和GRBFNN具有相同的权重。换句话说,当𝑑≤2.然而,对于高维问题,如表1所示,SGNN可以显著减少可训练变量的数量,使其比GRBFNN更易于处理。

image.png
3.2正向传播
假设输入数据集的大小为m。使用等式(5)至(8),我们可以估计SGNN中前向传递的浮点运算(FLOP)的数量。更具体地,用来自前一层的输入来计算第k层的输出的FLOP的数量为
image.png

其中2𝑁2是第k层的权重和高斯函数的乘积的算术运算次数,6𝑁 是层的高斯函数的计算次数,m是输入数据集的大小。此外,与第一层和输出层相关联的FLOP的数量为

image.png

运算次数随着输入向量d的层数或维数的增加而线性增加。另一方面,RBGNN的FLOP的计算复杂度为
image.png
而与高斯函数的中心和宽度的可训练性无关。
3.3反向传播
准确估计反向传播的计算复杂性是一项挑战,因为自动微分[28]和计算图[26]等技术已经优化了原始数学运算,以提高计算性能。自微分使用对偶数评估数值函数的导数,链式规则分解为一系列运算,如加法、乘法和合成。在正向传播期间,计算图中的中间值被记录用于反向传播。
我们分析了关于第l层的单个神经元的反向传播的操作。的偏导数𝑓̲(𝐱) 关于𝒲(𝑙)𝑗, 𝜇(𝑙)𝑗, 和𝜎(𝑙)𝑗 第l(1≤𝑙≤𝑑) SGNN中的层是image.png

关于第l(1≤1)的第j个神经元的向后中止𝑙≤𝑛−1) 层可以分为三个步骤:
计算的梯度𝑓̲关于(𝑙+1) 第-层,𝒩(𝑙+1)𝑗, 如方程(24)所示,其中[⏴𝑓̲⏴𝒩(𝑙+2) ]𝑇 可以从(𝑙+2) 第-层。这导致2𝑁 FLOP是由于两个矢量的点积。
计算的偏导数𝒩(𝑙+1)𝑗 关于重量、中心和宽度。由于导数的计算在计算上很便宜,下面的分析将忽略用于评估导数的运算。这不应影响结论。
向后传播渐变。这会产生𝑁+2次操作。
因此,第l层的FLOP的数量大约为𝑚(3𝑁2+2𝑁), 其中m是输入数据集的体积。最后一层的反向传播导致N个操作。总的来说,通过反向传播的FLOP数量为

4.子空间梯度下降
本节的目的是通过梯度下降的透镜讨论SGNN在计算效率和精度方面优于GRBFNN的高性能。如第3节所示,对于高维输入,SGNN的可训练变量比相关的GRBFNN少。换句话说,GRBFNN可能被过度参数化。最近的工作[29,30,31]表明,优化由过参数化神经网络构建的损失函数可以导致Hessian矩阵在训练前后具有很少的主特征值和许多接近零的主特征。这意味着梯度下降可以发生在一个小的子空间中。受他们工作的启发,我们考虑了GRBFNN a的损失函数J的无穷小变化

image.png

image.png

因此,GRBFNN的Hessian主特征值也包含在相应的SGNN中。这意味着SGNN的梯度可以在GRBFNN的映射优势非平坦子空间中下降,这可能有助于SGNN与GRBFNN相比具有可比的精度和训练效率,如第3节所述。
5.数值实验
5.1.候选功能
我们考虑了[32,33]中的十个候选函数,并对它们进行了修改,如表2所示。这些函数涵盖了一系列不同的特征,包括汇点、源点、平面和s形表面,以及多个汇点和源点,这有助于对不同神经网络的函数近似值进行基准测试。
表2。候选功能及其特点。

image.png

我们生成均匀分布的样本集来训练每次运行的神经网络,每个维度的上界和下界在−8到8之间。高斯函数的初始中心在每个维度上均匀分布,宽度是两个相邻中心的距离。在训练过程中,我们使用Tensorflow中的优化器Adam的小批量梯度下降来更新模型参数。优化器使用其默认训练参数,如果在四个连续时期内没有实现损失值的改善,则停止。数据集分为包含80%数据的训练集和包含剩余20%数据的验证集。选择小批量大小、神经元数量和数据点以平衡收敛速度和准确性。所有测试都是在Windows-10桌面上进行的,该桌面配有3.6赫兹、8核、英特尔i7-9700K CPU和64 GB三星DDR-3 RAM。
5.2.维度可扩展性
5.2.维度可扩展性
为了理解SGNN的维数可伸缩性,我们将SGNN应用于维数从2到5的候选函数,如表3所示。为了进行比较,将数据点保持为16384,从而对5D函数(即。,𝑑=5.每层有固定的20个单变量高斯神经元,初始中心在每个维度上均匀分布,宽度为两个相邻中心之间的距离。每个历元的训练时间随着维度的增加而线性增长,每层的增量为0.02秒/历元。对于大多数候选函数,SGNN可以达到10−4的精度水平。通过具有五层和总共100个神经元的SGNN来近似5D函数是足够的。SGNN的配置不能有效地近似函数𝑓4D中的5。这可以通过在神经网络中添加更多的神经元来轻松解决(见表7中的类似示例)。总之,SGNN的计算时间随着维数的增加而线性增加。
表3。SGNN每个历元的计算时间随着维数的增加而线性增加。通过对30次运行的结果取平均值来生成数据。数据大小:16384,小批量大小:256。每层神经元:20个。

image.png

然后,选择2D和5D示例来说明SGNN在函数近似中的表现力。神经元的数量、训练大小和小批量大小都经过了微调,以获得最佳结果。
5.3.二维示例
首先,使用SGNN对二维函数进行近似𝑓3(𝐱)=1/5𝑒(𝑥21+𝑥22)/50,其在域中具有四个尖锐的峰和一个平坦的谷。如图2a所示,优化器在400个步骤中收敛,训练集和测试集之间的差异在10−4的量级上。图2b–e显示,SGNN的预测几乎与地面实况相同,除了边界附近的域。这可以归因于边界附近的采样点较少。通过对输入数据集的额外边界点进行采样,可以实现更好的对齐。
9d3c1ec812da6d129d8ee022ef31efb6_algorithms-16-00453-g002-550.jpg

图2:近似二维函数𝑓3由SGNN提供。(a) 培训历史;(b) 绝对误差;(c) 预测与精确值;(d) 预测;以及(e)基本事实。训练数据集的大小:2048。
随着候选函数变得越来越复杂,SGNN保持其准确性水平。例如,图3给出了𝑓4(𝐱)=15(𝑒𝑥21/50sin𝑥2+𝑒𝑥22/50sin𝑥1) 。SGNN可以近似𝑓4,具有与𝑓3即使在较少的训练时期,也可能是由高斯函数的局部化性质引起的。最大的误差再次出现在边界附近,误差百分比小于8%。在域内,计算的值与精确的值精确匹配。如图3d,e所示,SGNN的预测可以完全捕捉函数的特征。
6c91d79e669294d61f929c80509d2c8a_algorithms-16-00453-g003-550.jpg

图3。近似二维𝑓4通过SGNN。(a) 培训历史;(b) 绝对误差;(c) 预测与精确;(d) 预测;以及(e)基本事实。训练数据集大小:2048。
这一发现在图4中得到了证实,图4给出了函数的近似值𝑓5(𝐱)=150(𝑥21cos𝑥1+𝑥22cos2𝑥2) SGNN。功能,不同于𝑓4,在边界附近具有峰和谷,并在原点附近变得平坦,如图4c-e所示。有趣的是,对于𝑓4.这表明损失函数可以变得更凸并且包含更少的平坦区域。一个可能的原因是,随着函数变得越来越复杂,越来越多的高斯神经元是活跃的,并且具有更大的权重,从而增加了损失梯度。在边界附近再次观察到最大误差。如图4所示,SGNN可以捕获目标函数的特征𝑓5.由于色条的梯度配置,相对于地面实况的小偏移发生在原点附近,但相应的绝对误差非常小,如图4b所示。

405c6fb005a79e540ddf9912c0df56e4_algorithms-16-00453-g004-550.jpg

图4。近似二维𝑓5由SGNN提供。(a) 培训历史;(b) 绝对误差;(c) 预测与精确;(d) 预测的2D投影;以及(e)地面实况的2D投影。训练数据集大小:2048。
5.4.五维示例
五维函数的近似𝑓1至𝑓10的横截面图𝑥1−𝑥2平面,其他三个变量固定为零,如图5和图6所示。左侧面板用于预测,右侧面板用于地面实况。在训练过程中,为了保持一致性,为所有函数分别生成大小为32768的统一采样训练集。然而,当函数形状简单时(例如,汇点或源点),可以使用较少的点。用于生成预测图的验证集是通过以每层神经元数量两倍的步长均匀划分子空间来生成的。
76bea075410ec04da61d42e9ad60679e_algorithms-16-00453-g005-550.jpg

图5。预测与精确𝑓1–𝑓五个维度中的5个。通过将曲面投影到𝑥1−𝑥2平面,其他坐标固定为零。(左)面板用于预测;(右侧)面板显示的是确切的值。训练数据集大小:32768。

13c623875b289e731ffd1ecf6d6a7d0f_algorithms-16-00453-g006-550.jpg

图6。预测与精确𝑓6–𝑓在五个维度中为10。通过将曲面投影到𝑥1−𝑥2平面,其他坐标固定为零。(左)面板:预测;(右)面板:基本事实。训练数据集大小:32768。
SGNN可以准确地捕捉所有候选的特征,而不管它们的几何复杂性如何。尽管当函数(例如。,𝑓10) 是恒定的,差异小于3%。
6.SGNN与GRBFNN的比较
SGNN和GRBFNN在近似二维和三维候选函数方面的性能分别如表4和表5所示。为了进行比较,GRBFNN的高斯神经元的中心和宽度也被设置为可训练变量。我们将重点放在总历元、每个历元的训练时间和损失的差异上进行比较。这些结果是通过对30次运行的结果取平均值而获得的。
表4。使用SGNN和GRBFNN的二维函数近似。通过对30次运行的结果取平均值来生成数据。采样点:1024个;小批量:64;每层神经元:10个。

image.png

表5。使用SGNN和GRBFNN的三元函数的近似。SGNN可以实现GRBFNN的100倍加速度,函数的损失值更小𝑓3-𝑓5(突出显示)。通过对30次运行的结果取平均值来生成数据。采样点:2048个;小批量:64;每层神经元:10个。

image.png

如表4所示,在近似二维函数时,SGNN可以实现与GRBFNN相当的精度,在大多数情况下差异小于一个数量级。最坏的情况发生在近似𝑓1.然而,绝对差在1.0×10−3左右,SGNN仍然可以给出相当好的近似值。另一方面,SGNN的每个历元的训练时间大约是GRBFNN的十分之一。
SGNN的优点在三维函数近似中变得更加明显。SGNN可以比GRBFNN获得100倍的加速,但仍然保持类似的精度水平。令人惊讶的是,SGNN在近似时也可以产生更准确的结果𝑓3至𝑓6.
7.与深层神经网络的比较

在本节中,我们将SGNN与深度Re-LU和Sigmoid NN的性能进行了比较,这是两种流行的激活函数选择。通过对四维候选函数的逼近,SGNN表现出比深Re-LU和Sigmoid NN更好的可训练性和逼近性。
表6通过对30次跑步的结果进行平均,显示了三个深度神经网络的每个时期的训练时间、训练的总时期以及训练后的损失。所有神经网络都有四个隐藏层,每层有20个神经元。训练集大小固定为16384,小批量大小为256。与SGNN和Sigmoid NN不同,它们在所有候选函数中每个历元具有稳定的训练时间,Re-LU-NN的时间是波动的。这可能是由于在计算输入小于或大于零的Re-LU单元的导数时存在差异。由于计算高斯函数和的导数,SGNN每个历元的训练时间更长𝜇 和𝜎. 有人可能会说,这种比较是不公平的,因为SGNN有额外的可训练变量。然而,SGNN具有较少的可训练权重(见表7),因为没有权重连接输入层和第一层,并且输出层是不可训练的。
表6。SGNN和具有Re-LU和Sigmoid激活函数的深度神经网络的性能比较。通过对30次运行的结果取平均值来生成数据。所有神经网络都有四个隐藏层,每层有20个神经元。

image.png

表7。SGNN与基于Re-LU的NN在近似𝑓5.通过对30次运行的数据进行平均来生成结果。

image.png
尽管SGNN具有明显更大的训练时期,但这也导致了更准确的预测。SGNN在训练后的损失值均匀地小于Re-LU-NN和Sigmoid NN的损失值,除了𝑓10.事实上𝑓2.𝑓4.𝑓6,以及𝑓7,SGNN的精度甚至比其他两个模型高出两个数量级。
尽管Sigmoid神经网络的训练速度很快,但对于𝑓1和𝑓5.事实上𝑓Sigmoid NN的5在训练后与群体真相相去甚远。当函数变得更加复杂时,SGNN在通过随机梯度下降最小化损失方面优于Re-LU-NN和Sigmoid NN。这可能归因于高斯函数的局部性,它增加了活动神经元,减少了梯度减小的平坦子空间。Sigmoid NN中止的历元数显著减少。当输入保持在饱和区域内时,Sigmoid函数的小导数可能会导致这种情况,这使得训练网络变得更加困难。
接下来,我们进一步比较了SGNN和Re-LU-DNN的可训练性。我们训练具有不同配置的两个网络来近似函数𝑓5,其具有更复杂的几何形状并且更难以近似。NNs的配置和训练性能如表7所示。

然而,Re-LU-DNN的精度随着模型宽度和深度的增加而略有增加。通过增加7层和每层50个神经元,可以减少近50%的损失。然而,该误差仍然比具有十分之一的可训练变量的四层SGNN的误差高出三个数量级,每个历元具有一半的训练时间。根据普遍逼近定理,尽管可以不断扩展网络结构以提高精度,但这与最后一行的观测结果相反。这是因为当网络变得过参数化时,梯度下降的收敛可能是一个实际的障碍。在这种情况下,网络可能对初始权重提出非常高的要求,以产生最优解。
为了可视化SGNN和Re-LU-NN之间表现力的差异,选择表7中一次运行的预测,并通过𝑥1−𝑥2平面与其他两个变量𝑥3和𝑥4固定在零,如图7所示。网络配置如表8所示。图7b中SGNN的预测与图7a中的基本事实非常吻合。尽管原点附近的颜色差异很小,但它们的最大幅度小于0.1。具有相同结构的Re-LU-NN具有更差的近似值。尽管网络逐渐捕捉到了𝑓5通过将其结构显著增加到10层,每层70个神经元,幅度差异仍然可以大到0.5,如图7f所示。

a6ad3989665494c9ceef1b8ca8565720_algorithms-16-00453-g007-550.jpg

图7。四维近似𝑓5使用SGNN和Re-LU NN。通过将曲面投影到𝑥1−𝑥2平面,其他坐标均为零。(a) 地面实况;(b) SGNN;(c–f)具有不同网络配置的Re-Lu NNs。神经网络的层和每层神经元列于表8中。
表8。图7的子地块的网络配置。

8.结论
在本文中,我们重新检查了GRBFNN的结构,以使其能够处理高维输入的问题。利用高斯径向基函数的可分离性,提出了一种新的前馈网络,称为可分离高斯神经网络(SGNN)。与传统的MLP不同,SGNN将输入数据按维度拆分为多列,并按顺序将其馈送到相应的层中。与GRBFNN相比,SGNN显著减少了神经元的数量、可训练变量以及前向和后向传播的计算负载,从而使训练效率呈指数级提高。SGNN还可以在梯度下降中保持GRBFNN的Hessian矩阵的优势子空间,因此,提供可比较的最小损失。已经进行了大量的数值实验,证明SGNN在保持类似精度水平的同时,具有优于GRBFNN的计算性能。此外,SGNN在逼近复函数时优于具有Re-LU和Sigmoid单元的MLP。然而,SGNN是否能形成一组密集的GRBFNN尚不清楚,有待进一步研究。进一步的研究还可以集中在SGNN的普遍逼近性及其在物理知情神经网络(PINN)和强化学习中的应用上。
作者贡献
S.X.:概念化、方法论、调查、写作——初稿准备。J.-Q.S.:子空间梯度下降,写作——审查和编辑,监督。所有作者都已阅读并同意手稿的出版版本。
作者贡献
S.X.:概念化、方法论、调查、写作——初稿准备。J.-Q.S.:子空间梯度下降,写作——审查和编辑,监督。所有作者都已阅读并同意手稿的出版版本。
基金
思源兴由Keysight Technologies,股份有限公司(批准号47118)和Donald E.本特利工程创新中心资助。孙建桥还得到了国家自然科学基金11972070的部分资助。
利益冲突
提交人声明没有利益冲突。

参考文献
Dyn,N。;Levin,D。;Rirra,S.用径向函数对散射数据进行曲面拟合的数值方法。SIAM J.Sci。Comput。1986年,7639-659。[谷歌学者][交叉参考]
段,Y.关于使用径向基函数的无网格方法的一个注记。Comput。数学Appl。2008年,55,66–75。[谷歌学者][交叉参考]
吴,J.K-Means聚类研究进展:一种数据挖掘思想;施普林格:柏林/海德堡,德国,2012年。[谷歌学者]
Akhtar,T。;Shoemaker,C.使用RBF代理和多规则选择对计算昂贵的多模态函数进行多目标优化。J.环球。Optim。2016年,64,17-32。[谷歌学者][交叉参考]
Daoud,M。;Mayo,M。;Cunningham,S.J.RBFA:径向基函数自动编码器。在2019年IEEE进化计算大会(CEC)会议记录中,新西兰惠灵顿,2019年6月10日至13日;第2966–2973页。[谷歌学者]
余H。;谢。;Paszczyñski,S。;Wilamowski,B.径向基函数网络在动态系统设计中的优势。IEEE Trans。神经网络。学系统。2011年,585438–5450。[谷歌学者][交叉参考]
Buvanesvari,R.M。;Joseph,K.S.RBFNN:一种用于检测和缓解命名数据网络中缓存污染攻击的径向基函数神经网络模型。IET网络。2020年,9255-261。[谷歌学者][交叉参考]
杜。;张,J。;杨。;李,X。;郭。;Song,L.能源生产过程的机理分析和基于自适应RBFNN的混合软测量模型:一个案例研究。传感器2022,2211333。[谷歌学者][交叉参考]
陶,K.径向基函数(RBF)网络。《第27届阿西洛马信号、系统和计算机会议论文集》,美国加利福尼亚州太平洋格罗夫,1993年11月1日至3日;第1卷,第401–405页。[谷歌学者]
Moody,J。;Darken,C.J.局部调谐处理单元网络中的快速学习。神经计算机。1989年,1281-294。[谷歌学者][交叉参考]
Broomhead,D.S。;Lowe,D.多变量函数插值与自适应网络。复杂系统。1988年,22321-355。[谷歌学者]
Hornik,K。;Stinchcombe,M。;White,H.多层前馈网络是通用逼近器。神经网络。1989年,2359-366。[谷歌学者][交叉参考]
Park,J。;Sandberg,I.W.使用径向基函数网络的普遍逼近。神经计算机。1991年,3246-257。[谷歌学者][交叉参考]
Leshno,M。;林,V.Y。;Pinkus,A。;具有非多项式激活函数的多层前馈网络可以逼近任何函数。神经网络。1993年,6861-867。[谷歌学者][交叉参考]
Poggio,T。;Girosi,F.用于近似和学习的网络。Proc。IEEE 1990,781481-1497。[谷歌学者][交叉参考]
Wettschereck,D。;Dieterich,T.G.通过学习中心位置提高径向基函数网络的性能。《第四届神经信息处理系统国际会议论文集》,美国加利福尼亚州旧金山,1991年12月2日至5日;第1133-1140页。[谷歌学者]
Platt,J.函数插值的资源分配网络。神经计算机。1991年,3121-225。[谷歌学者][交叉参考][Pub Med]
陈,S。;Cowan,C。;Grant,P.径向基函数网络的正交最小二乘Larning算法。IEEE Trans。神经网络。1991年,2302-309。[谷歌学者][交叉参考]
黄,G.B。;Saratchandran,P。;Sundararajan,N.一种用于函数逼近的广义生长修剪RBF(GGAP-RBF)神经网络。IEEE Trans。神经网络。2005年,16,57–67。[谷歌学者][交叉参考]
卡瓦略A。;Brizzotti,M.结合不同聚类技术训练的RBF网络。神经过程。Lett。2001年,14227-240。[谷歌学者][交叉参考]
Niros,A。;Tsekouras,G.关于使用最优模糊聚类训练径向基函数神经网络。2009年6月24日至26日,希腊塞萨洛尼基,第17届地中海控制和自动化会议记录;第395-400页。[谷歌学者]
姚。;陈,X。;Van Tooren,M。;Wei,Y.基于欧氏距离和二阶导数的径向基函数神经网络宽度优化。2010年7月18-23日,在西班牙巴塞罗那举行的2010年国际神经网络联合会议论文集;第1-8页。[谷歌学者]
姚。;陈,X。;赵。;van Tooren,M.RBF神经网络建模的并行子空间宽度优化方法。IEEE Trans。神经网络。学系统。2012年,23247-259。[谷歌学者][Pub Med]
张,Y。;龚。;方,H。;苏H。;李。;Da Ronch,A.一种基于模糊聚类算法的RBF网络宽度优化方法。结构。多学科。Optim。2019年,6461-480。[谷歌学者][交叉参考]
郑,S。;冯。一般径向基函数神经网络的一种变投影方法。Appl。数学Comput。202345128009。[谷歌学者][交叉参考]
Abadi,M。;Barham,P。;陈,J。;陈。;Davis,A。;Dean,J。;Devin,M。;Ghemawat,S。;欧文G。;Isard,M。;et免责声明/出版商注意:所有出版物中包含的声明、意见和数据仅限于个人作者和撰稿人,而非MDPI和/或编辑。MDPI和/或编辑对内容中提及的任何想法、方法、说明或产品对人员或财产造成的任何伤害不承担责任。
©2023作者。被许可人MDPI,瑞士巴塞尔。本文是根据知识共享署名(CC BY)许可证的条款和条件发布的开放获取文章(https://creativecommons.org/licenses/by/4.0/)。

https://www.mdpi.com/1999-4893/16/10/453

目录
相关文章
|
8天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
1月前
|
机器学习/深度学习 数据采集 存储
时间序列预测新突破:深入解析循环神经网络(RNN)在金融数据分析中的应用
【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题,特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策,比如股票价格预测、汇率变动预测等。近年来,随着深度学习技术的发展,尤其是循环神经网络(Recurrent Neural Networks, RNNs)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU),在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念,并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。
221 2
|
9天前
|
存储 安全 网络安全
网络安全法律框架:全球视角下的合规性分析
网络安全法律框架:全球视角下的合规性分析
22 1
|
18天前
|
网络协议 安全 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
实战:WireShark 抓包及快速定位数据包技巧、使用 WireShark 对常用协议抓包并分析原理 、WireShark 抓包解决服务器被黑上不了网等具体操作详解步骤;精典图示举例说明、注意点及常见报错问题所对应的解决方法IKUN和I原们你这要是学不会我直接退出江湖;好吧!!!
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
|
23天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
18天前
|
网络协议 安全 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9-2):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
实战:WireShark 抓包及快速定位数据包技巧、使用 WireShark 对常用协议抓包并分析原理 、WireShark 抓包解决服务器被黑上不了网等具体操作详解步骤;精典图示举例说明、注意点及常见报错问题所对应的解决方法IKUN和I原们你这要是学不会我直接退出江湖;好吧!!!
|
1月前
|
机器学习/深度学习 算法
神经网络的结构与功能
神经网络是一种广泛应用于机器学习和深度学习的模型,旨在模拟人类大脑的信息处理方式。它们由多层不同类型的节点或“神经元”组成,每层都有特定的功能和责任。
31 0
|
1月前
|
安全 网络协议 物联网
物联网僵尸网络和 DDoS 攻击的 CERT 分析
物联网僵尸网络和 DDoS 攻击的 CERT 分析
|
1月前
|
存储 算法 数据可视化
单细胞分析 | Cicero+Signac 寻找顺式共可及网络
单细胞分析 | Cicero+Signac 寻找顺式共可及网络
25 0
|
5天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第39天】在数字化时代,网络安全和信息安全成为了我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,帮助读者更好地了解网络安全的重要性,并提供一些实用的技巧和方法来保护自己的信息安全。
15 2

热门文章

最新文章