推荐:295 页博士论文探索强化学习抽象理论,获 AAAI/ACM SIGAI 博士论文奖提名。
论文 5:Weakly Supervised Object Localization as Domain Adaption
- 作者:Lei Zhu 、 Qi She 等
- 论文链接:https://arxiv.org/abs/2203.01714
摘要:本文将基于 CAM 的弱监督物体定位过程看作是一个特殊的域自适应任务,即在保证在源图像级特征域上训练的分类器应用在目标像素域时仍具有良好的分类表现,从而使其更好的在测试过程中进行目标定位。从这一视角来看,我们可以很自然的将域自适应方法迁移到弱监督物体定位任务中,使得仅依据图像标签训练的模型可以更为精准的定位目标物体。
目前,这项研究已被 CVPR2022 接收,完整训练代码及模型均已开源。主要由北大分子影像 / 医学智能实验室朱磊和字节跳动佘琪参与讨论和开发,北大分子影像 / 医学智能实验室卢闫晔老师给予指导。
图 1 - 方法整体思想
弱监督物体定位实际上可以看作是在图像特征域(源域 S)中依据图像级标签(源域金标 Y^s)完全监督地训练模型 e(∙),并在测试过程中将该模型作用于像素特征域(目标域 T)以获取物体定位热力图。总的来看,我们的方法希望在此过程中引入域自适应方法进行辅助,以拉近源域 S 与目标域 T 的特征分布,从而增强在模型 e(∙) 对于目标域 T 的分类效果,因此我们的损失函数可以表示为:
其中 L_c 为源域分类损失,而 L_a 则为域自适应损失。
由于弱监督定位中源域和目标域分别为图像域和像素域,我们所面临的域自适应任务具有一些独有的性质:①目标域样本与源域样本的数量并不平衡(目标域样本是源域的 N 倍,N 为图像像素数);②目标域中存在与源域标签不同的样本(背景像素不属于任何物体类别);③目标域样本与源域样本存在一定联系(图像特征由像素特征聚合而得到)。为了更好地考虑这三个特性,我们进而提出了一种域自适应定位损失(DAL Loss)作为 L_a (S,T) 以拉近图像域 S 与像素域 T 的特征分布。
图 2 - 弱监督定位中源域目标域的划分以及其在弱监督定位中的作用
图 3 - 整体工作流及目标样本分配器结构
推荐:CVPR2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架。
论文 6:Spelling interface using intracortical signals in a completely locked-in patient enabled via auditory neurofeedback training
- 作者:Ujwal Chaudhary 等
- 论文链接:https://www.nature.com/articles/s41467-022-28859-8
摘要:通常渐冻症患者可以使用眼动追踪摄像头来选择屏幕上的字母进行交流。当疾病发展到后期,患者可以通过细微的眼球运动来回答是或否的问题。但是完全失去肌肉控制能力的 ALS 患者,甚至无法控制他们的眼球运动和呼吸能力,也就无法用这种方式实现交流。图宾根大学的研究团队构建了一种可以读取大脑信号的植入设备,ALS 患者能够使用这种设备来进行交流。这项研究发表在《自然 - 通讯》上。
该研究通过手术将两个 3.2 毫米宽的方形「皮质内微电极阵列」植入负责运动的大脑皮层,即运动皮层。每个微电极阵列上带有数十根用于记录神经信号的微针,然后电线将信号馈送到一个与患者颅骨相连的连接器上。在外部,连接器上设有放大器,能够将信息数字化并将其发送到计算机。
当患者无法移动时,这种植入设备能够读取患者的大脑信号并记录其移动冲动。这些大脑信号被实时发送给计算机,计算机学会将这些运动尝试分类为「是」或「否」的响应,使得患者能够回答其他人询问的问题。此外,这套设备还可向患者大声朗读字母,患者可以对每个字母回答「是」或「否」以拼写出单词。
起初,这项研究经历了一些失败的实验,例如当研究者指导参与者尝试想象手、舌头或脚的运动时,设备无法检测到一致的反应。然后研究团队尝试采用下图所示的基于神经反馈的模式。这种模式通过将一个或多个通道的脉冲率度量 ( spike rate metric,SRM) 映射到听觉反馈音的频率,向患者提供神经活动的听觉反馈。参与者在实验开始后第 86 天第一次尝试调节音调,随后在第 98 天成功调节神经信号发射率,并首次将反馈频率与目标匹配。采用神经反馈策略,从第 106 天起,参与者能够调节神经激活率(firing rate),并且能够使用这种方法来选择和拼写字母。研究团队搜索反应最灵敏的神经元,然后探究每个神经元如何随着参与者的努力而发生变化,依此调整系统。
使用该系统大约 3 周后,他说出了一个可以理解的句子——请求护理人员调整他的位置。
推荐:脑机接口让渐冻重症患者重获交流能力。
论文 7:Survey on Large Scale Neural Network Training
- 作者:Julia Gusak 、 Daria Cherniuk 等
- 论文链接:https://arxiv.org/abs/2202.10435
摘要:俄罗斯斯科尔科沃科学技术研究所、法国里尔大学、波尔多大学、Inria 等科研机构联合发表了一篇论文《Survey on Large Scale Neural Network Training》,它试图解决的问题是:若给定模型和计算平台的情形下,如何训练才是最有效率的。为了使训练高效,其必须可行,最大程度地利用资源的计算能力,在并行情况下,它不能让信息传输成为瓶颈。训练的效率从根本上取决于计算内核在计算资源(CPU、TPU、GPU)上的有效实现以及 GPU 之间和不同内存之间通信的有效实现。
在这两种情况下,人们为优化计算内核的算术强度,及有效实现硬件网络上的通信做了很多工作。对于使用者来说,已存在强大的分析工具来识别硬件瓶颈,并可用于判定本调查中描述哪些策略可用于解决算术强度、内存和控制交换数据量的问题。
该综述研究涵盖了应对这些限制的通用技术。如果由于模型、优化器状态和激活不适合内存而无法先验执行计算,则可以使用内存交换计算(重新实现)或数据转移(激活和权重卸载)。我们还可以通过近似优化器状态和梯度(压缩、修剪、量化)来压缩内存使用。
并行方法(数据并行、模型并行、流水线模型并行)也可以将内存需求分布到多个算力资源上。如果计算的算力强度不足以充分利用 GPU 和 TPU,一般是因为 mini-batch 太小,那么上述技术也可以增加 mini-batch 的大小。最后,如果使用数据并行引起的通信开销昂贵到拖累计算速度,则可以使用其他形式的并行(模型并行、流水线模型并行),梯度压缩也可以限制数据交换的数量。在本次调查中,研究者解释了这些不同技术是如何工作的,其中描述了评估和比较所提出方法的文献,还分析了一些实施这些技术的框架。
下表 1 为文章讨论的不同技术及其对通信、内存和计算效率的影响。
研究者根据目的区分了以下方法:首先讨论减少 GPU 内存使用,随后考虑对不适合 GPU 的模型使用并行训练,最后讨论为训练存储在多个设备上的模型而开发的优化器的设计。
推荐:大规模神经网络最新文献综述。
ArXiv Weekly Radiostation