【文献学习】Meta-Learning to Communicate: Fast End-to-End Training for Fading Channels

简介: 把学习如何在衰落的噪声信道上进行通信的过程公式化为对自动编码器的无监督训练。该自动编码器由编码器,信道和解码器的级联组成。

1 引言

论文地址
开源源码

  • 把学习如何在衰落的噪声信道上进行通信的过程公式化为对自动编码器的无监督训练。该自动编码器由编码器,信道和解码器的级联组成
  • 为了解决基于自动编码器方法对端到端训练,需要从头开始为每个新信道进行训练的问题,提出提前考虑在多个信道上的联合训练,从而找到在一类信道上工作良好的一对编码器和解码器
  • 利用元学习消除联合训练的局限性:与传统的方法为所有渠道训练通用模型相比,元学习找到一个通用的初始化向量,该向量可以在任何通道上进行快速训练

2 介绍

《Deep learning based communication over the air》展示了一种实际的实现方式,它说明了不完美的同步和其他硬件损害。
《Deep joint source-channel coding for wireless image transmission》该方法用于训练执行视频传输的联合源通道编码的系统
《Model-free training of end-to-end communication systems》作者提出了一种解决方案,该解决方案通过基于接收器反馈的强化学习对编码器进行训练,从而克服了对信道模型的需求

3 系统模型

1.png

编码器:采用one-hot编码。把one-hot编码的信号通过fθ函数映射为n个复数符号x,该函数由一个带有权重θT的神经网络定义。
信道:通过线性运算,把x处理得到经过信道的数据y
解码器:由一个带有权重为θR的神经网络定义,每个输出pθR(m | y)提供对所传输消息为m的相应后验概率的估计。最后通过近似最大后验准进行硬判决估计
数学表达为求最小化交叉熵损失下的最优模型

2.png


3.png

总结了该训练过程,以供算法1参考

4.png

4 技术点

通过元学习快速训练。通过元学习使用少量的迭代为新信道找到编码器的权重参数θT和解码器的权重参数θR。关键思想是在算法1中初始化θ(0),然后SGD的更新参数θi即可。

4.1 联合训练

在联合训练下,我们希望找到一个唯一的解参数θ,该参数在集合中的所有信道上都适用。在数学上,将问题表述为对通道中的总对数损失的优化,通过SGD去获得这个参数θ

5.png

4.2 元学习

联合训练为集合H中的所有通道获得一个通用模型θ,而元学习则为算法中的集合H中的所有通道获得一个通用的初始化θ(0),以用于算法中的局部训练。目标是基于算法1中的较少迭代,实现更快的收敛,以有效解决与H中的信道相关的任何信道。
元学习的算法MAML实现寻找优化问题的初始化值θ(0)

6.png

求解θ(0)公式化为

7.png

其中Jθ(0)表示雅克比操作,Lh()表示交叉熵损失函数,Lh’()表示经验损失。整个计算过程,用算法2表示

8.png

5 实验分析

5.1 模型参数

传输k=2比特,n=1的复数符号
考虑两个相位的信道,振幅是π/4和3π/4
信噪比是15db
新信道状态的相位以相等的概率在π/ 4和3π/ 4之间随机选择
公式(3)中的每次迭代中设置P = 4个样本

5.2 实验对比

对比实验一:固定初始化,其中初始化向量θ(0)是随机选择的
对比实验二:联合训练找到在集合中的所有信道上都适用的唯一参数θ。模型训练的参数包括学习率k=0.01,Adam优化器。对于新的信道,采用算法1,学习率η=0.001,Adam优化器。
对比实验三:对于元训练,采用算法2,学习率η=0.1,k=0.01。对于新的信道,在迭代时η=0.1,在算法1 中Adam时η=0.001

5.3 编码器和解码器网络结构

(1)编码器

  • 输入层:4个神经元
  • 一个隐藏层:4个神经元+ReLu
  • 输出层:2个线性神经元+归一化
    (2)解码器
  • 输入层:2个神经元
  • 一个隐藏层:4个神经元+ReLU
  • 输出层:softmax的4个神经元

5.4 接收器设计

  • vanilla
  • RTN( Radio Transformer Networks)
    RTN将滤波器w应用于接收信号y,以获得到解码器的输入y = y * w作为pθR(·| y)。过滤器w在附加神经网络的输出处获得,该神经网络具有四层,输入层2个神经元,以及各有2个神经元的两个隐藏层+双曲正切激活函数,一个有2个线性神经元的输出层

5.5 结果分析

(1)例子分析

9.png

元学习有更快的收敛速度,即使仅进行一次SGD迭代,也能有效地适应新的渠道。
除联合训练外,vanilla自动编码器体系结构优于RTN自动编码器体系结构。 这是由于RTN模型中的参数数量较多,这些参数通常很难通过很少的迭代来训练。
可以看到元学习提供了一种初始化,该初始化在一个通道上效果很好,而一次迭代后又可以适应另一个通道。 此外,可以看到vanilla自动编码器仅适应编码器,而具有RTN的自动编码器体系结构仅适应解码器。 这表明通过更改RTN模块更容易适应解码器。
(2)实际场景

10.png

  • 模型参数
    传输k=4比特,n=4的复数符号
    信噪比我15db
    元训练信道K=100
    每个迭代的样本数P=16
    包括每次迭代所有 16条消息,而RTN过滤器具有 6个taps。
  • 分析
    结果表明,元学习比联训练更快地收敛。 与例子分析不同,对于联合训练和元学习而言,RTN由于更具挑战性的传播环境而提供了性能优势。
    此外,经过非常长时间的训练,固定初始化优于其他方案,这表明联合和元学习采用的归纳偏差可能会在有足够的数据时导致性能下降。

6 疑问和思考

(1)在介绍联合训练实现信号解调上,用数学公式抽象化去表达的,无法理解是如何做的联合训练,怎么体现出的联合训练的过程并不知道。同样元学习如何实现解调的,也是不清楚。
(2)元学习解调可以参考作者的另一篇文献《Learning to Demodulate from Few Pilots via Offline and Online Meta-Learning》以及源码,但源码有几千行代码,而且有BUG,运行不通,晦涩难懂。
(3)归根到底,元学习解调是一个数据驱动的解调器

目录
相关文章
|
2月前
|
机器学习/深度学习 Web App开发 编解码
论文精度笔记(四):《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》
Sparse R-CNN是一种端到端的目标检测方法,它通过使用一组可学习的稀疏提议框来避免传统目标检测中的密集候选框设计和多对一标签分配问题,同时省去了NMS后处理步骤,提高了检测效率。
51 0
论文精度笔记(四):《Sparse R-CNN: End-to-End Object Detection with Learnable Proposals》
|
2月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
55 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
4月前
|
机器学习/深度学习 存储 算法
【博士每天一篇文献-算法】Memory augmented echo state network for time series prediction
本文介绍了一种记忆增强的回声状态网络(MA-ESN),它通过在储层中引入线性记忆模块和非线性映射模块来平衡ESN的记忆能力和非线性映射能力,提高了时间序列预测的性能,并在多个基准数据集上展示了其优越的记忆能力和预测精度。
34 3
【博士每天一篇文献-算法】Memory augmented echo state network for time series prediction
|
4月前
|
机器学习/深度学习 人工智能 算法
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
本文介绍了一种新型的尺度无标度高聚类回声状态网络(SHESN)模型,该模型通过模拟生物神经系统的特性,如小世界现象和无标度分布,显著提高了逼近复杂非线性动力学系统的能力,并在Mackey-Glass动态系统和激光时间序列预测等问题上展示了其优越的性能。
39 1
【博士每天一篇论文-算法】Collective Behavior of a Small-World Recurrent Neural System With Scale-Free Distrib
|
7月前
[Transformer-XL]论文实现:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
[Transformer-XL]论文实现:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
42 1
|
7月前
|
机器学习/深度学习 数据挖掘 Python
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
[Bart]论文实现:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation...
56 0
|
自然语言处理 算法
【论文精读】COLING 2022 - CLIO: Role-interactive Multi-event Head Attention Network for DEE
将网络上的大量非结构化文本转换为结构化事件知识是NLP的一个关键但尚未解决的目标,特别是在处理文档级文本时。
77 0
|
机器学习/深度学习 数据采集 存储
Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction论文解读
大多数现有的事件抽取(EE)方法只提取句子范围内的事件论元。然而,此类句子级事件抽取方法难以处理来自新兴应用程序(如金融、立法、卫生等)的大量文件
112 0
|
机器学习/深度学习 计算机视觉
Faster R-CNN : end2end 和 alternative 训练
Faster R-CNN 实际上就是由 Fast R-CNN 和 RPN 两个网络结合的,可以使用 end2end 和 alternative 两种方式来训练,两种方法训练出来的网络准确度基本没有多大的区别,但是使用 end2end 训练,即端到端训练可以节省很多时间。这篇文章参考 Ross' Girshick 在 ICCV15 上的演讲报告,主要讲 end2end 方法。
193 0
《Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual Data》电子版地址
Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual Data
80 0
《Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual Data》电子版地址