论文地址:From learning to meta-learning: Reduced training overhead and complexity for communication Systems
1 引言
元学习提供了一种自动选择归纳偏置的方法。
2 发展过程
2.1 传统机器学习的通信
- 《Applications of neural networks to digital communications–a survey》监督学习训练:数据集是通信系统的信号输入输出(例如,成对的导频符号和接收端接收到的信号)进行监督学习训练
- 《An introduction to deep learning for the physical layer》无监督学习:仅需要输入或或者出就行,也有可能这输入输出都是学习器自己可能产生的,例如,在存在信道模型的情况下训练传输链路的输入
- 《Model-free training of end-to-end communication systems》强化学习:是基于学习器与环境或其仿真环境的直接交互,例如,用于通过未知信道模型进行传输
- 《Reconciling modern machine-learning practice and the classical bias–variance trade-off》对于传统的机器学习,对训练时间有要求,并且需要足够多的数据和迭代去寻找模型最佳的解决方案。通常很难将先验知识编码为归纳偏差,尤其是对于黑盒模型类(例如神经网络)。
- 在通信中,传统的学习是为每种信道训练一个单独的模型,这通常会带来数据量和训练时间的代价
2.2 改进的通信
- 《An introduction to deep learning for the physical layer》提出了联合训练,意思是在所选模型类别中训练一个单一模型,该模型在所有配置下都可能表现最佳。这种方法也有缺点是可能没有一个单一的训练模型能取得这种效果。
- 《Lifelong learning algorithms》《Theoretical models of learning to learn》提出元学习,元学习提供了一种方法,可以通过利用已知任务中与未来感兴趣的先验未知系统配置相关的数据或主动观测值,来自动选择归纳偏差。元学习在更高的抽象级别上运行,使用来自多个配置的数据(元学习术语中的任务),并不是去识别与先验归纳偏差兼容的单个模型,而是推断出一个归纳偏差,从而能够在每个系统上进行有效的学习。 推断的归纳偏差可以指代模型类别的选择,例如通过特征提取器、学习过程、学习率、优化更新规则或初始化来进行的选择。
- 举例:元学习算法-MAML
在联合训练学习中,目标是为了找到单个解决方法的 φ,这个尽可能的接近最优模型的φk∗
但是在MAML元学习中,目标是找到一个公共的初始化点θMAML,它可以快速地适应每个最优训练模型φk∗
3 传统学习与联合学习
3.1 传统学习
传统学习是先固定模型类别和归纳偏差,然后通过训练集去训练一个由向量φ决定的模型,然后在相同任务数据集上进行测试。优化标准是损失函数,越小越好。以下第一个是计算单个数据点的损失函数,第二个计算整个训练集的损失函数
其中Ex表示期望,Pk表示任务k的数据点x的真实分布。l(x,φ)表示数据点x在使用参数向量的模型的时候的损失。在学习过程中,假设学习器是不知道分布Pk的,学习器只知道由Pk采样得到的数据,称为训练数据集。
大多数学习算法通过SGD梯度下降算法去更新参数向量φ,以下公式的x是从训练数据集中随机抽取的一个数据点,η表示学习步长
训练完成后,就可以通过测试集去测试模型,并计算求和损失函数作为评价模型好坏的标准
3.2 联合学习
如果我现在要适应一个新的信道,对于固定的归纳偏差,传统学习会针对每项任务从头开始重新训练模型。而联合训练目的为了找到一个单一的模型,通过参数向量φ,可以平均优化所有任务的性能损失。公式表示为
其中Q表示为任务k的分布。 lk(φ)表示第k个任务的损失。
总之,联合训练是对混合数据分布进行传统学习训练
优化标准是联合训练损失函数,越小越好。
其中KaTeX parse error: Undefined control sequence: \varp at position 14: L_{D_k^{tr}}(\v̲a̲r̲p̲)表示第k个任务的训练损失
4 元学习
4.1 元学习理论
元学习假设,一旦部署,机器学习算法就可以使用很少的训练样本以适应新的任务。比如通信中基于ML的解码器可以使用当前信道中的导频符号。元学习使用先前观察到的任务中的数据来推断归纳偏置,从而使用特定于任务的训练样本对新任务进行“快速”调整。θ表示归纳偏置在这里称为共享参数,在元学习中由元训练集推导所得。φ在这里称为上下文变量,是一个潜在随机变量。
在公式中:可以将元学习问题表述为通过期望最大化(EM估计共享参数θ的问题,也可以表述为完全贝叶斯推理问题。
注意:与普通归纳器相比,选择不当的归纳器可能会影响模型自适应性。因此,如何表征元训练数据的数量,以保证对新任务进行有效的“元概括”,非常重要。但是已经有了解决方法,如PAC理论或PAC-Bayes框架。
4.2 MAML算法
在数学上,MAML的目的是推断一个共享参数向量θ,以初始化m,并通过SGD更新上下文变量φ。这样的更新为任何任务产生一个自适应参数φk。例如,对于m=1,有自适应步骤
5 发展现状
- 2019《Learning to demodulate from few pilots via offline and online meta-learning》提出了设计一个信号接收器,能够通过使用元学习处理少量导频快速适应操作。通过元学习,从设备接收到的导频可用于推断归纳偏差(使用MAML进行初始化),从而可以在任何新的(元测试)设备上快速进行调整。
- 《Meta-learning to communicate: Fast end-to-end training for fading channels》用于通信链路的编码器和解码器的端到端无监督学习
6 疑问和总结
(1)元学习概念讲得还算明白,作者对比了传统的监督学习、联合学习和元学习三者的区别,但是内容都特别抽象,需要结合代码实现才能知道具体怎么去求共享参数θ和上下文变量φ。以及在代码中具体表示那块内容
(2)如何把元学习应用到信号中,作者没有介绍,只是说在一篇论文中把导频作为样本去训练,但是如何让理论和实际联系起来并没有说。比如说,用导频是代表元学习中的Support set还是training Set,如果去构造training set?