NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法-阿里云开发者社区

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

2023-05-12 242 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

二值神经网络（BNN）将原始全精度权重和激活用符号函数表征成 1-bit。但是由于常规符号函数的梯度几乎处处为零，不能用于反向传播，因此一些研究已经提出尝试使用近似梯度来减轻优化难度。然而，这些近似破坏了实际梯度的主要方向。

基于此，在一篇 NeurIPS 2021 论文中，来自华为诺亚方舟实验室等机构的研究者提出使用傅里叶级数的组合来估计频域中符号函数的梯度以训练 BNN，即频域逼近 (FDA)。所提方法不影响占整体能量大部分的原始符号函数的低频信息，并且将高频系数使用噪声拟合模块 (noise adaptation module) 进行估计以避免大量的计算开销。

论文地址：https://arxiv.org/pdf/2103.00841.pdf

在几个基准数据集和神经架构上的实验表明，使用该方法学习的二值网络实现了 SOTA 准确率。

数日前，在机器之心 2021 NeurIPS MeetUp China 上，论文一作许奕星为参会者解读了该论文，感兴趣的读者可以查看以下视频。

，时长14:39

方法

该研究提出的 FDA 方法，通过利用傅里叶级数 (FS) 来估计频域中的原始符号函数，FS 估计是使用无穷项时符号函数的无损表征。在实际应用中，能量相对较低的高频系数会被忽略，以避免巨大的计算开销，并将符号函数表征为固定数量的不同周期正弦函数的组合。与现有的逼近方法相比，该研究所提出的频域逼近方法不影响原始符号函数的低频域信息，即占用符号函数能量最多的部分。因此，原始符号函数相应梯度的主要方向能够被更准确地保持。

在论文中，该研究对所提方法做了详细的理论表述。

论文中用 f(·)和 f’(·)来表示原始函数及其对应的梯度函数。由于符号函数的梯度是一个无法反向传播的脉冲函数，需要应用进化算法（evolutionary algorithm）等零阶算法来达到最优解，但这是非常低效的。因此该研究提出找到一个代理函数，通过一阶优化算法（如 SGD）依靠实验求解，而理论上具有与符号函数相同的最优解。

已有研究证明，任何周期为 T 的周期信号都可以分解为傅里叶级数的组合：