目录:
Aerial additive manufacturing with multiple autonomous robots
A dynamic stability design strategy for lithium metal solid state batteries
Multi-Degree-of-Freedom Robots Powered and Controlled by Microwaves
Hydra Attention: Efficient Attention with Many Heads
Frozen CLIP Models are Efficient Video Learners
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification
SOFT DIFFUSION SCORE MATCHING FOR GENERAL CORRUPTIONS
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:Aerial additive manufacturing with multiple autonomous robots
- 作者:Ketao Zhang、Pisak Chermprayong 等
- 论文地址:https://www.nature.com/articles/s41586-022-04988-4
摘要:我们经常可以看到蜜蜂、蚂蚁等各种动物忙碌地筑巢。经过自然选择,它们的工作效率高到叹为观止。
这些动物的分工合作能力已经「传给」了无人机,来自英国帝国理工学院的一项研究向我们展示了未来的方向,就像这样无人机 3D 打灰:
本周三,这一研究成果登上了《自然》封面。
为了展示无人机的能力,研究人员使用泡沫和一种特殊的轻质水泥材料,建造了高度从 0.18 米到 2.05 米不等的结构。与预想的原始蓝图相比,误差不到 5 毫米。
不过,目前该技术还受到一些限制,因为无人机难以承载重物,需要定期充电,并且仍然需要人工监督。然而,研究人员表示,他们希望通过在项目研究期间自动为无人机充电来缓解其中的一些问题。
推荐:多无人机协同 3D 打印盖房子,研究登上 Nature 封面。
论文 2:A dynamic stability design strategy for lithium metal solid state batteries
- 作者:Luhan Ye、Xin Li
- 论文地址:https://www.nature.com/articles/s41586-021-03486-3
摘要:去年,来自哈佛大学的研究者开发了一种用于电动汽车的新型固态锂电池,10-20 分钟内就可以充满电。现在,研究团队表示这种自主研发的锂电池又获得了新的突破,仅需 3 分钟就可以充满电了,并宣布已经获得哈佛大学的技术许可。由研究团队成立的初创公司 Adden Energy 也完成了由 Primavera Capital Group 领投的 515 万美元的种子轮融资。
据 Adden Energy 介绍,这种自主研发的锂金属电池使用寿命超过 10000 次,电池原型具有高能量密度和材料稳定性,并克服了一些锂电池的安全问题,研究论文发表在《Nature》上。
Adden Energy 计划首先将电池研制成手掌大小的软包电池,然后在未来三到五年内将其转变为成熟的汽车电池。
推荐:3 分钟充满电,循环超 10000 次,哈佛新型固态锂电池获技术许可。
论文 3:Multi-Degree-of-Freedom Robots Powered and Controlled by Microwaves
- 作者:李永泽、邢志广、赵建文
- 论文地址:https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202203305
摘要:近日,哈工大威海校区机器人研究所软体机器人实验室首次通过改变 2.47 GHz 微波的偏振方向来调整能量分布,进而控制 MWD 远场并联机器人。该并联机器人基于三个由吸波片和双金属片组成的双层弯曲致动器,它可以在 700W 发射功率下实现 0.4m 的圆形和三角形路径运动。
研究者还提出了一种基于形状记忆合金(shape memory alloys, SMA)弹簧和导线的伸缩致动器,并基于该致动器设计了一个四足爬行机器人。四足爬行机器人长约 15 毫米,重仅 0.42 克,是目前最轻的射频驱动机器人。
推荐:哈工大直接用微波驱控多自由度机器人,登上国际顶刊。
论文 4:Hydra Attention: Efficient Attention with Many Heads
- 作者:Daniel Bolya 、 Cheng-Yang Fu 等
- 论文地址:https://arxiv.org/pdf/2209.07484.pdf
摘要:近日, Meta AI 和佐治亚理工学院的研究者提出了 Hydra Attention。该方法源于线性注意力中有些自相矛盾的行为,即在使用标准多头自注意力时,向模型中添加更多的 head 会保持计算量不变。但是,在线性注意力中改变操作顺序后,添加更多的 head 实际上降低了层的计算成本。
因此,研究者将这一观察结果发挥到了极致,将模型中 head 的数量设置为与特征数相同,从而创建了一个在计算上对于 token 和特征都呈线性的注意力模块。
下图为标准注意力、线性注意力和 Hydra Attention 的结构比较。
Hydra Attention 不仅比先前高效注意力工作的泛化性更强,而且在使用正确的内核时能够显著提升准确率。
推荐:将 head 数设置为特征数,Meta AI 多头高效注意力模块更准、更快。
论文 5:Frozen CLIP Models are Efficient Video Learners
- 作者:Ziyi Lin、Shijie Geng 等
- 论文地址:https://arxiv.org/abs/2208.03550
摘要:来自香港中文大学、上海人工智能实验室等机构的研究者提出了高效的视频理解迁移学习框架 EVL,通过固定骨干基础模型的权重,节省了训练计算量和内存消耗;同时通过利用多层次、细粒度的中间特征,尽可能保持了传统端到端微调的灵活性。
下图 1 展示了 EVL 方法在视频理解数据集 Kinetics-400 上的结果。实验显示,本文方法在节省训练开销的同时,仍然充分发掘了视觉基础模型在视频理解任务中的潜力。
图 1:Kinetics-400 识别精度比较,横轴为推理计算量,纵轴为精度。
EVL 算法结构图。(a)总体结构,(b)时序信息建模模块。
推荐:固定参数的模型有多大潜力?港中文等提出高效视频理解框架 EVL。
论文 6:Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification
- 作者:Renrui Zhang 、 Wei Zhang 等
- 论文地址:https://arxiv.org/pdf/2207.09519.pdf
摘要:本文提出了 Tip-Adapter,一种不需要额外下游训练并且能很大程度提升 CLIP 准确率的 few-shot 图像分类方法。基于此,本文又提出了一种仅需要少量微调就能达到 state-of-the-art 性能的方案:Tip-Adapter-F,实现了效率和性能的最佳折中。如下表 1 所示,Tip-Adapter 不需要任何训练时间,即可以将 CLIP 在 ImageNet 数据集提升 + 1.7% 准确率(Accuracy),而 Tip-Adapter-F 仅需要之前方案十分之一的训练时间(Epochs,Time),就可以实现现有最佳的分类性能。
Tip-Adapter 的整体网络结构如下图 1 所示,对于给定的 few-shot 训练数据集和标签,本文借助 CLIP 通过一个非训练的方案来构建一个缓存模型(Cache Model),它存储了来自下游训练数据的分类知识;在测试时,Tip-Adapter 通过将 Cache Model 的预测和原始 CLIP 的预测进行线性加和,来得到更强的最终分类结果。
Tip-Adapter 和 Tip-Adapter-F 的网络流程图
推荐:ECCV 2022 论文。
论文 7:SOFT DIFFUSION SCORE MATCHING FOR GENERAL CORRUPTIONS
- 作者:Giannis Daras 、 Mauricio Delbracio 等
- 论文地址:https://arxiv.org/pdf/2209.05442.pdf
摘要:近日,在谷歌研究院和 UT-Austin 合作的一篇 arXiv 论文《Soft Diffusion: Score Matching for General Corruptions》中,几位研究者认为扩散模型仍有一个重要的步骤:损坏(corrupt)。一般来说,损坏是一个添加不同幅度噪声的过程,对于 DDMP 还需要重缩放。虽然有人尝试使用不同的分布来进行扩散,但仍缺乏一个通用的框架。因此,研究者提出了一个用于更通用损坏过程的扩散模型设计框架。
具体地,他们提出了一个名为 Soft Score Matching 的新训练目标和一种新颖的采样方法 Momentum Sampler。理论结果表明,对于满足正则条件的损坏过程,Soft Score MatchIng 能够学习它们的分数(即似然梯度),扩散必须将任何图像转换为具有非零似然的任何图像。
在实验部分,研究者在 CelebA 以及 CIFAR-10 上训练模型,其中在 CelebA 上训练的模型实现了线性扩散模型的 SOTA FID 分数 ——1.85。同时与使用原版高斯去噪扩散训练的模型相比,研究者训练的模型速度显著更快。
推荐:谷歌新框架从通用扩散过程中正确调度、学习和采样。