每日学术速递3.7

简介: 由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Dropout Reduces Underfitting

1698331e7148e7b83a862d4c1d897e16.png

标题:Dropout 减少欠拟合

作者:Zhuang Liu, Zhiqiu Xu, Joseph Jin, Zhiqiang Shen, Trevor Darrel

文章链接:https://arxiv.org/abs/2303.01500v1

项目代码:https://github.com/facebookresearch/dropout

6bc3d9ce161cbe7c887ccf129f277172.png

6e86fb6d2836b44dfe25c8b361af74a8.png

19d22228793cd3dfe0fd3fd18a739ff9.png

摘要:

       由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。我们的发现使我们找到了一种提高欠拟合模型性能的解决方案——早期退出:退出仅在训练的初始阶段应用,然后关闭。与没有 dropout 的模型相比,配备了 early dropout 的模型实现了更低的最终训练损失。此外,我们探索了一种用于正则化过拟合模型的对称技术 - 后期退出,其中退出在早期迭代中不使用,仅在后期训练中激活。在 ImageNet 和各种视觉任务上进行的实验表明,我们的方法不断提高泛化精度。我们的结果鼓励更多关于理解深度学习正则化的研究,我们的方法可以成为未来神经网络训练的有用工具,尤其是在大数据时代。

2.Self-Supervised Few-Shot Learning for Ischemic Stroke Lesion Segmentation

aeb9f8fbeac3fc6fed274826e356b850.png

标题:用于缺血性中风病灶分割的自监督小样本学习

作者:Luca Tomasetti, Stine Hansen, Mahdieh Khanmohammadi, Kjersti Engan, Liv Jorunn Høllesli, Kathinka Dæhli Kurz, Michael Kampffmeyer

文章链接:https://arxiv.org/abs/2303.01332v1

项目代码:https://github.com/biomedical-data-analysis-laboratory/adnet-for-ais-segmentation

a809811a19ace0e6e01a6e78ce1a83b4.png

fe9201ab31077019d3b0453f1a869bc4.png

摘要:

       精确的缺血性病灶分割在改善缺血性中风的诊断和治疗计划方面起着至关重要的作用,缺血性中风是死亡率最高的流行病之一。虽然最近提出了许多深度神经网络方法来解决这个问题,但这些方法在训练过程中需要大量的注释区域,这在注释数据稀缺的医学领域是不切实际的。作为一种补救措施,我们提出了一种原型的少镜头分割方法,用于在训练期间仅使用一个带注释的样本进行缺血性病变分割。所提出的方法利用了一种新颖的自我监督训练机制,该机制通过利用从计算机断层扫描灌注扫描生成的颜色编码参数图来适应缺血性中风病变分割的任务。我们说明了我们提出的训练机制的好处,从而在少镜头设置中显着提高了性能。给定一个带注释的患者,缺血性病变分割的平均 Dice 得分为 0.58。

3.The Learnable Typewriter: A Generative Approach to Text Line Analysis

e6a08f286f7cf52b8882d2130cb21b94.png

标题:基于匹配的术语语义预训练,用于理解患者的口语查询

作者:Zefa Hu, Xiuyi Chen, Haoran Wu, Minglun Han, Ziyi Ni, Jing Shi, Shuang Xu, Bo Xu

文章链接:https://arxiv.org/abs/2303.01341v1

项目代码:https://github.com/flyingcat-fa/tspmn

32c4254604d569470cea388451a23fa3.png

c78744677a5dee60304d8c92803c4a85.png

摘要:

       Medical Slot Filling (MSF) 任务旨在将医疗查询转换为结构化信息,在诊断对话系统中发挥重要作用。然而,缺乏足够的术语语义学习使得现有方法难以捕捉医学对话中语义相同但口语化的术语表达。在这项工作中,我们将 MSF 形式化为一个匹配问题,并提出了一个术语语义预训练匹配网络 (TSPMN),它将术语和查询作为输入来模拟它们的语义交互。为了更好地学习术语语义,我们进一步设计了两个自监督目标,包括对比术语识别(CTD)和基于匹配的掩码术语建模(MMTM)。CTD 判断每个给定的term 是否是对话中的masked term,而MMTM 直接预测masked 的。两个中国基准的实验结果表明,TSPMN 优于强基线,尤其是在少镜头设置中。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
129 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
159 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
177 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
174 0
每日学术速递3.9
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
130 0
每日学术速递3.27
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
170 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
151 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
129 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
235 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
98 0