本周论文包括中国天眼 FAST 再立功,精确测量星际磁场强度,研究登 Nature 封面;浙大提出无数据知识蒸馏方法 FastDFKD,生成速度加速 100 倍,性能媲美 SOTA 等。
目录:
- A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More
- An early transition to magnetic supercriticality in star formation
- Up to 100× Faster Data-free Knowledge Distillation
- Are Large-scale Datasets Necessary for Self-Supervised Pre-training?
- Masked Feature Prediction for Self-Supervised Visual Pre-Training
- Activation Modulation and Recalibration Scheme for Weakly Supervised Semantic Segmentation
- A Survey of Generalisation in Deep Reinforcement Learning
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:A Neural Network Solves and Generates Mathematics Problems by Program Synthesis: Calculus, Differential Equations, Linear Algebra, and More
- 作者:Iddo Drori、Sunny Trana、Roman Wang 等
- 论文链接:https://arxiv.org/pdf/2112.15594.pdf
摘要:前段时间,DeepMind 的一项研究登上《Nature》封面,通过引导直觉解决了两大数学难题;之后,OpenAI 教 GPT-3 学会了上网,能够使用基于文本的 Web 浏览器。
就在 2021 年的最后一天, MIT 与哥伦比亚大学、哈佛大学、滑铁卢大学的联合研究团队发表了一篇长达 114 页的论文,提出了首个可以大规模自动解决、评分和生成大学水平数学问题的模型,可以说是人工智能和高等教育的一个重要里程碑。其实在这项研究之前,人们普遍认为神经网络无法解决高等数学问题。
对于 MATH 数据集,该研究从每个主题中随机抽取 5 个问题。
使用 Codex 将课程问题转换为编程任务并运行程序以解决数学问题。
推荐:AI 生成高数题,难出新高度:MIT 提出首个可出题、做题、评分的算法模型。
论文 2:An early transition to magnetic supercriticality in star formation
摘要:1 月 6 日,「中国天眼」在中性氢谱线测量星际磁场取得了重大进展,登上《Nature》封面。这是科学家依托「中国天眼」再次取得的一批重要科研成果。该研究采用原创的中性氢窄线自吸收方法,并首次利用这种方法实现了塞曼效应的探测,获得了强度为 3.8±0.3 微高斯的高置信度星际磁场测量,为解决恒星形成三大经典问题之一的「磁通量问题」提供了重要的观测证据。该研究由中国科学院国家天文台研究员李菂等领导的国际合作团队完成。
研究者开发了一种叫做 HI 窄自吸收(HI narrow self-absorption, HINSA)的技术,以提供从 HI 到 H_2 转变的探针。HINSA 追踪与 H_2 混合良好的冷原子氢,并通过碰撞提供必要的 H1 冷却(CNM 中无法提供)。
如下图 1 所示,研究者使用中国天眼 FAST,在距离 L1544 中心 3.6' (0.15 pc)、靠近 HINSA 柱密度峰值的 2.9′(0.12 pc) 光束中检测到了塞曼分裂,获得了 L1544 的精确磁场强度。
下图 2 展示了 Stokes I(v) 和 V(v) 参数的频谱,v 表示速度。图 2a 将 I(v) 分解为前景 HINSA 分量(component)、背景 WNM 分量以及 HINSA 和 WNM 之间的 3 个 CNM 分量。图 2b 为 HINSA 的塞曼分裂和 5 个分量的总体塞曼分布。
下图 3 展示了 HINSA、CNM1、CNM2、CNM3 和 WNM 等 5 个分量的塞曼分裂和 B_los。
推荐:中国天眼 FAST 再立功,精确测量星际磁场强度,研究登 Nature 封面。
论文 3:Up to 100× Faster Data-free Knowledge Distillation
- 作者:Gongfan Fang 、 Kanya Mo 等
- 论文链接:https://arxiv.org/pdf/2112.06253.pdf
摘要:知识蒸馏(KD)最近成为一种流行的范式,它是一种很典型的模型压缩方法,可以复用如今在线流行的预训练模型。随着自然语言处理模型等进入了预训练模型的时代,模型的规模也在极速增长,例如 GPT-3 参数量达到 1750 亿。如何在资源有限的情况下部署使用这些庞大的模型是一个很大的挑战。
知识蒸馏在解决这一问题中占据了重要的地位。我们可以用它来有效地从大型教师模型学习小型学生模型,并且学生模型的性能也很不错。
KD 的传统设置需要拥有原始训练数据作为输入以训练学生模型。不幸的是,由于隐私或版权原因,在很多情况下,原始数据无法发布,用户只能使用预先训练好的模型,反过来,这对 KD 应用于更广泛的领域构成了主要障碍。
为了解决这个问题,有研究者(Lopes, Fenu,Starner 2017)提出了无数据知识蒸馏 (DFKD,Data-free knowledge distillation) 方法,这种方法假设根本无法获得训练数据。由于 DFKD 对训练数据的约束非常宽松,其在自然语言处理、计算机视觉等领域受到越来越多的关注。
DFKD 虽然取得了一些比较好的结果,但 SOTA 性能的 DFKD 方法仍然存在数据合成效率较低的问题,这使得无数据训练过程非常耗时,因此不适用于大规模训练任务。
在这项研究中,来自浙江大学、新加坡国立大学等机构的研究者引入了一种有效的解决方案 FastDFKD,其能够将 DFKD 加速一个数量级。FastDFKD 的核心是:复用训练数据中共享的公共特征,从而合成不同的数据实例。不同于之前单独优化一组数据,该研究建议学习一个元合成器(meta-synthesizer),可以寻求共同特征作为快速数据合成的初始化。因此,FastDFKD 只需几步即可实现数据合成,显着提高了无数据训练的效率。在 CIFAR、NYUv2 和 ImageNet 上的实验表明,所提出的 FastDFKD 实现了 10 倍甚至 100 倍的加速,同时保持了与当前 SOTA 相当的性能。
推荐:加速 100 倍,性能媲美 SOTA,浙大提出快速高效的无数据知识蒸馏方法 FastDFKD。
论文 4:Are Large-scale Datasets Necessary for Self-Supervised Pre-training?
- 作者:Alaaeldin El-Nouby、Gautier Izacard、Hugo Touvron 等
- 论文链接:https://arxiv.org/pdf/2112.10740.pdf
摘要:当今应对数据匮乏问题的主流学习范式是,即先在大型数据集(如 Imagenet )上对模型进行预训练,之后基于特定的任务以较少的数据集微调模型。这一训练过程通常优于从头开始训练(例如,从头随机初始化参数)。这种学习范式在许多任务中取得了 SOTA 性能,例如检测、分割、动作识别等。尽管这种方法取得了成功,但我们很难将这种大规模标签数据集提供的好处与预训练范式的局限性区分开来。除此以外,在一个数据集上预训练模型并在另一个数据集上对其进行微调会引入差异。
来自 Meta AI 等机构的研究者,考虑了一个仅利用目标任务数据的自监督预训练场景。所用数据集包括如 Stanford Cars、Sketch 或 COCO,它们的数量级小于 Imagenet。该研究表明,本文介绍的去噪自编码器(如 BEiT 或其变体),对预训练数据的类型和大小更具有鲁棒性。与来自 ImageNet 预训练相比,该研究获得了具有竞争力的性能。在 COCO 上,当仅使用 COCO 图像进行预训练时,在检测和实例分割任务上,性能超过了监督 ImageNet 预训练。
SplitMask 架构。
实验研究了计算机视觉模型在各种数据集上的预训练和微调。
推荐:超越 ImageNet 预训练,Meta AI 提出 SplitMask,小数据集也能自监督预训练。
论文 5:Masked Feature Prediction for Self-Supervised Visual Pre-Training
- 作者:Chen Wei 、 Haoqi Fan 等
- 论文链接:https://arxiv.org/pdf/2112.09133.pdf
摘要:来自 Facebook AI 研究院(FAIR)的研究团队又提出了一种自监督视觉预训练新方法 MaskFeat。
MaskFeat 首先随机掩码一部分输入序列,然后预测被掩码区域的特征。通过研究 5 种不同类型的特征,研究者发现方向梯度直方图 (HOG) 是一种很好的特征描述方法,在性能和效率方面都表现优异。并且研究者还观察到 HOG 中的局部对比归一化对于获得良好结果至关重要,这与之前使用 HOG 进行视觉识别的工作一致。该方法可以学习丰富的视觉知识并驱动基于 Transformer 的大规模模型。在不使用额外的模型权重和监督的情况下,MaskFeat 在未标记的视频上进行预训练,使用 MViT-L 在 Kinetics-400 上实现了前所未有的 86.7% top-1 准确率。此外,MaskFeat 还能进一步推广到图像输入,并在 ImageNet 上获得了有竞争力的结果。
掩码视觉预测任务旨在修复被掩码的视觉内容。通过建模掩码样本,该模型从识别物体的部位和运动的意义上实现了视频理解。例如,要补全下图中的图像,模型必须首先根据可见区域识别对象,还要知道对象通常的形态和移动方式,以修复缺失区域。
MaskFeat 提出将预测被掩码区域的特征。借助从原始完整样本中提取的特征进行监督。目标特征的选择在很大程度上影响了预训练模型的属性,该研究对特征进行了广泛的解释,并主要考虑了 5 种不同类型的目标特征。
推荐:比 MAE 更强,FAIR 新方法 MaskFeat 用 HOG 刷新多个 SOTA。
论文 6:Activation Modulation and Recalibration Scheme for Weakly Supervised Semantic Segmentation
- 作者:Jie Qin、Jie Wu、Xuefeng Xiao 等
- 论文链接:https://arxiv.org/abs/2112.08996