技术心得:卷积自编码器CAEs

简介: 技术心得:卷积自编码器CAEs

一、自编码器


自编码器(Autoencoder)是一种旨在将它们的输入复制到的输出的神经网络。他们通过将输入压缩成一种隐藏空间表示(latent-space representation),然后这种重构这种表示的输出进行工作。这种网络由两部分组成:


编码器:将输入压缩为潜在空间表示。可以用编码函数h = f(x)表示。


解码器:这部分旨在重构来自隐藏空间表示的输入。可以用解码函数r = g(h)表示//代码效果参考:http://www.lyjsj.net.cn/wx/art_23544.html


二、CAE


在CAE中,编码器由一个卷积层和一个池层组成,解码器只包括一个反卷积层。


卷积神经网络由一个由卷积和池化组成的神经网络。卷积的作用相当于一个滤波器,而池化则是提取不变特征。其网络结构如下图所示:


自编码器则是一个由输入层,隐含层,输出层所构成的神经网络。可以这样理解


卷积层-卷积:初始化k个卷积核(W),每个卷积核搭配一个偏置b,与输入x卷积()后生成k个特征图h,激活函数是。公式如下:


池化层-池化操作(Max Pooling): 对上面生成的特征图进行池化操作,时要保留池化时的位置关系的矩阵,方便之后反池化的操作。


池化层-自编码(反池化操作): 对上面生成的特征图进行反池化操作,用到保留池化时的位置关系的矩阵,将数据还原到原始大小的矩阵的相应的位置(在此可以参考卷积神经网络的一些过程)。


卷积层-自编码(反卷积的操作):每张特征图h与其对应的卷积核的转置 进行卷积操作并将结果求和,然后加上偏置c,激活函数仍然是。公式如下:


卷积层-更新权值:要更新权值,首先要确定损失函数,此处采用的MSE(最小均方差)函数,即:目标值减去实际值的平方和再求均值,2n是为了简化求导。其中。公//代码效果参考:http://www.lyjsj.net.cn/wx/art_23542.html

式如下:

参考CAE


反卷积


一句话解释:逆卷积{反卷积}相对于卷积在神经网络结构的正向和反向传播中做相反的运算。


逆卷积(Deconvolution)比较容易引起误会,转置卷积(Transposed Convolution)是一个更为合适的叫法.


不同的卷积类型


一般的卷积操作(我们这里只考虑最简单的无padding, stride=1的情况),都将输入的数据越卷越小。根据卷积核大小的不同,和步长的不同,输出的尺寸变化也很大。但是有的时候我们需要输入一个小的特征,输出更大尺寸的特征该怎么办呢?比如图像语义分割中往往要求最终输出的特征尺寸和原始输入尺寸相同,但在网络卷积核池化的过程中特征图的尺寸却逐渐变小。在这里转置卷积便能派上了用场。在数学上,转置卷积的操作也非常简单,把正常卷积的操作反过来即可。所以需要转置卷积。


参考抽丝剥茧,带你理解转置卷积(反卷积)


三、CNN的组成


多个经过训练的CAE被//代码效果参考:http://www.lyjsj.net.cn/wx/art_23540.html

堆叠到CNN中,用于学习增强最终分类性能的层次表示。

四、总结


参考深度学习中的卷积与反卷积


卷积操作是找到特定的局部图像特征(如边缘),之后通过池化层进行压缩的操作,而反卷积(转置卷积)可以理解为图像的复原操作,因此在进行CAEs(卷积自编码器)定义时去寻找反卷积操作之后的图像和原来的图像的差距,差距越小说明卷积构建的越合理,CAEs的数学形式:


下图为论文《Adaptive Deconvolutional Networks for Mid and High Level Feature Learning》通过deconvolutional networks学习图片特征的过程。右边为卷积通道,左边为反卷积通道。F、P分别表示卷积及pooling,F.T、U分别表示反卷积及unpooling。可以更好的理解:图片来自于深度学习中的卷积与反卷积


CAEs通过调整卷积层池化层对应的超参数(feature maps(z)和filters(f)等等)使得通过调整的超参数而重构的图像y^与原始图像y的差别最小。最终寻找到一个优秀的基本框架,包含一个卷积层和池化层以及对应的超参数,最后再通过叠加卷积层和池化层,构成庞大的神经网络,最后添加全连接层,从而形成一个CNN的网络结构。


缺点:卷积层和池化层的数量相对来说比较固定,一个卷积层后面肯定会跟随一个池化层,但对于目前的网络来说,这样的CAEs并不能构建出更新的更复杂的神经网络结构。

相关文章
|
机器学习/深度学习 人工智能 数据挖掘
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
数据上新 | AI Earth上线长时序土地覆盖数据集(来自武汉大学黄昕教授团队)
|
人工智能 搜索推荐 算法
爱思唯尔的KBS——模板、投稿、返修、接收的总结
爱思唯尔的KBS——模板、投稿、返修、接收的总结
4993 3
|
算法 5G 调度
5G 多址接入|带你读《5G空口特性与关键技术》之五
采用正交多址方式,用户间相互不存在干扰。采用非正交多址方式,每个用户的信号有可能与其他用户的信号相互叠加干扰,但是这种干扰通常在接收时可以采用信号处理的方式去除,以还原某个特定用户的信号。
16100 2
5G 多址接入|带你读《5G空口特性与关键技术》之五
|
10月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
6615 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
人工智能 算法 数据可视化
DBSCAN密度聚类算法(理论+图解+python代码)
DBSCAN密度聚类算法(理论+图解+python代码)
7748 1
|
机器学习/深度学习 编解码 人工智能
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。
2702 9
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
|
机器学习/深度学习 PyTorch 算法框架/工具
详解三种常用标准化Batch Norm & Layer Norm & RMSNorm
通过本文的介绍,希望您能够深入理解Batch Norm、Layer Norm和RMSNorm的原理和实现,并在实际应用中灵活选择和使用,提升深度学习模型的性能和稳定性。
3510 5
|
机器学习/深度学习 数据采集 算法
Python基础算法解析:支持向量机(SVM)
Python基础算法解析:支持向量机(SVM)
598 0
Python基础算法解析:支持向量机(SVM)
|
机器学习/深度学习 人工智能 自然语言处理
大模型:人工智能发展的引擎
大模型:人工智能发展的引擎
1394 0