1 引言
- 把学习如何在衰落的噪声信道上进行通信的过程公式化为对自动编码器的无监督训练。该自动编码器由编码器,信道和解码器的级联组成
- 为了解决基于自动编码器方法对端到端训练,需要从头开始为每个新信道进行训练的问题,提出提前考虑在多个信道上的联合训练,从而找到在一类信道上工作良好的一对编码器和解码器
- 利用元学习消除联合训练的局限性:与传统的方法为所有渠道训练通用模型相比,元学习找到一个通用的初始化向量,该向量可以在任何通道上进行快速训练
2 介绍
《Deep learning based communication over the air》展示了一种实际的实现方式,它说明了不完美的同步和其他硬件损害。
《Deep joint source-channel coding for wireless image transmission》该方法用于训练执行视频传输的联合源通道编码的系统
《Model-free training of end-to-end communication systems》作者提出了一种解决方案,该解决方案通过基于接收器反馈的强化学习对编码器进行训练,从而克服了对信道模型的需求
3 系统模型
编码器:采用one-hot编码。把one-hot编码的信号通过fθ函数映射为n个复数符号x,该函数由一个带有权重θT的神经网络定义。
信道:通过线性运算,把x处理得到经过信道的数据y
解码器:由一个带有权重为θR的神经网络定义,每个输出pθR(m | y)提供对所传输消息为m的相应后验概率的估计。最后通过近似最大后验准进行硬判决估计
数学表达为求最小化交叉熵损失下的最优模型
总结了该训练过程,以供算法1参考
4 技术点
通过元学习快速训练。通过元学习使用少量的迭代为新信道找到编码器的权重参数θT和解码器的权重参数θR。关键思想是在算法1中初始化θ(0),然后SGD的更新参数θi即可。
4.1 联合训练
在联合训练下,我们希望找到一个唯一的解参数θ,该参数在集合中的所有信道上都适用。在数学上,将问题表述为对通道中的总对数损失的优化,通过SGD去获得这个参数θ
4.2 元学习
联合训练为集合H中的所有通道获得一个通用模型θ,而元学习则为算法中的集合H中的所有通道获得一个通用的初始化θ(0),以用于算法中的局部训练。目标是基于算法1中的较少迭代,实现更快的收敛,以有效解决与H中的信道相关的任何信道。
元学习的算法MAML实现寻找优化问题的初始化值θ(0)
求解θ(0)公式化为
其中Jθ(0)表示雅克比操作,Lh()表示交叉熵损失函数,Lh’()表示经验损失。整个计算过程,用算法2表示
5 实验分析
5.1 模型参数
传输k=2比特,n=1的复数符号
考虑两个相位的信道,振幅是π/4和3π/4
信噪比是15db
新信道状态的相位以相等的概率在π/ 4和3π/ 4之间随机选择
公式(3)中的每次迭代中设置P = 4个样本
5.2 实验对比
对比实验一:固定初始化,其中初始化向量θ(0)是随机选择的
对比实验二:联合训练找到在集合中的所有信道上都适用的唯一参数θ。模型训练的参数包括学习率k=0.01,Adam优化器。对于新的信道,采用算法1,学习率η=0.001,Adam优化器。
对比实验三:对于元训练,采用算法2,学习率η=0.1,k=0.01。对于新的信道,在迭代时η=0.1,在算法1 中Adam时η=0.001
5.3 编码器和解码器网络结构
(1)编码器
- 输入层:4个神经元
- 一个隐藏层:4个神经元+ReLu
- 输出层:2个线性神经元+归一化
(2)解码器 - 输入层:2个神经元
- 一个隐藏层:4个神经元+ReLU
- 输出层:softmax的4个神经元
5.4 接收器设计
- vanilla
- RTN( Radio Transformer Networks)
RTN将滤波器w应用于接收信号y,以获得到解码器的输入y = y * w作为pθR(·| y)。过滤器w在附加神经网络的输出处获得,该神经网络具有四层,输入层2个神经元,以及各有2个神经元的两个隐藏层+双曲正切激活函数,一个有2个线性神经元的输出层
5.5 结果分析
(1)例子分析
元学习有更快的收敛速度,即使仅进行一次SGD迭代,也能有效地适应新的渠道。
除联合训练外,vanilla自动编码器体系结构优于RTN自动编码器体系结构。 这是由于RTN模型中的参数数量较多,这些参数通常很难通过很少的迭代来训练。
可以看到元学习提供了一种初始化,该初始化在一个通道上效果很好,而一次迭代后又可以适应另一个通道。 此外,可以看到vanilla自动编码器仅适应编码器,而具有RTN的自动编码器体系结构仅适应解码器。 这表明通过更改RTN模块更容易适应解码器。
(2)实际场景
- 模型参数
传输k=4比特,n=4的复数符号
信噪比我15db
元训练信道K=100
每个迭代的样本数P=16
包括每次迭代所有 16条消息,而RTN过滤器具有 6个taps。 - 分析
结果表明,元学习比联训练更快地收敛。 与例子分析不同,对于联合训练和元学习而言,RTN由于更具挑战性的传播环境而提供了性能优势。
此外,经过非常长时间的训练,固定初始化优于其他方案,这表明联合和元学习采用的归纳偏差可能会在有足够的数据时导致性能下降。
6 疑问和思考
(1)在介绍联合训练实现信号解调上,用数学公式抽象化去表达的,无法理解是如何做的联合训练,怎么体现出的联合训练的过程并不知道。同样元学习如何实现解调的,也是不清楚。
(2)元学习解调可以参考作者的另一篇文献《Learning to Demodulate from Few Pilots via Offline and Online Meta-Learning》以及源码,但源码有几千行代码,而且有BUG,运行不通,晦涩难懂。
(3)归根到底,元学习解调是一个数据驱动的解调器