每日学术速递5.8

简介: 最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Personalize Segment Anything Model with One Shot

f4a6c4e0e105549dea841b2e9e0c2f5d.png

标题:一键个性化细分任何模型

作者:Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li

文章链接:https://arxiv.org/abs/2305.03048

项目代码:https://github.com/ZrrSkywalker/Personalize-SAM

869925acb5166503c4085a28821d353a.png

42bdd3806668128dd2ab1163935a11d8.png

62e5cf8624503c1e54de53bc041569d4.png

a7d7fb9fa117ec713aa39068f6180b39.png

3026ec288961c9c667a8f02bfd942d56.png

09e1072c37dc0c455f22a056cad13b30.png

387e828181e285f378036304023da9c3.png

摘要:

       在大数据预训练的驱动下,Segment Anything Model (SAM) 已被证明是一个强大且可提示的框架,彻底改变了分割模型。尽管具有普遍性,但在没有人工提示的情况下为特定视觉概念定制 SAM 仍在探索中,例如,在不同的图像中自动分割您的宠物狗。在本文中,我们提出了一种用于 SAM 的免训练个性化方法,称为 PerSAM。只给定一张带有参考掩码的图像,PerSAM 首先通过一个位置先验定位目标概念,然后通过三种技术在其他图像或视频中将其分割:目标引导注意、目标语义提示和级联后细化。通过这种方式,我们无需任何培训即可有效地将 SAM 用于私人用途。为了进一步减轻掩模歧义,我们提出了一种有效的单次微调变体 PerSAM-F。冻结整个 SAM,我们为多尺度掩码引入了两个可学习的权重,仅在 10 秒内训练 2 个参数以提高性能。为了证明我们的功效,我们构建了一个新的分割数据集 PerSeg,用于个性化评估,并测试我们的视频对象分割方法具有竞争力的性能。此外,我们的方法还可以增强 DreamBooth 以个性化用于文本到图像生成的稳定扩散,从而丢弃背景干扰以实现更好的目标外观学习。代码在此 https URL 上发布

2.FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction(ACL 2023)

6049f97f853f8a57749751d409a63c78.png

标题:FormNetV2:用于表单文档信息提取的多模态图对比学习

作者:Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang

文章链接:https://arxiv.org/abs/2305.02549

项目代码:https://huggingface.co/papers/2305.02549

01af2b4ac2c0f3d90b9d29903476413d.png

fd927f613ed057167c30f7ca56c91105.png

b4695030ff4dc3cebc614323426f1ae4.png

f5cd3c5c421738b1914c87cd24981a32.png

摘要:

       最近出现的自我监督预训练技术导致在表格文档理解中使用多模态学习的激增。然而,将掩码语言建模扩展到其他模态的现有方法需要仔细的多任务调整、复杂的重建目标设计或额外的预训练数据。在 FormNetV2 中,我们引入了一种集中式多模态图对比学习策略,以在一次损失中统一所有模态的自我监督预训练。图对比目标最大化多模态表示的一致性,为所有模态提供自然的相互作用,无需特殊定制。此外,我们提取边界框内的图像特征,边界框连接一对由图形边缘连接的标记,捕获更有针对性的视觉线索,而无需加载复杂且单独预训练的图像嵌入器。FormNetV2 以更紧凑的模型尺寸在 FUNSD、CORD、SROIE 和支付基准上建立了新的最先进性能。

Subjects: cs.CL


3.Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

75cf26b27e31582ee366b8502ae7cc38.png

标题:在最少的人工监督下从头开始进行语言模型的原则驱动自对齐

作者:Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan

文章链接:https://arxiv.org/abs/2305.03047

项目代码:https://mitibmdemos.draco.res.ibm.com/dromedary

f24b749d8f2876f964e9584c07737ab0.png

6f050374a7661738741658fc5843a61f.png

79061c4966526120c39cae691315d21e.png

摘要:

       最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题,这种依赖性会极大地限制 AI 助手的真正潜力。为了应对这些挑战,我们提出了一种称为 SELF-ALIGN 的新方法,它结合了原则驱动的推理和 LLM 的生成能力,以在最少的人工监督下实现 AI 代理的自对齐。我们的方法包括四个阶段:首先,我们使用 LLM 生成合成提示,并使用主题引导方法来增加提示的多样性;其次,我们使用一小组人工编写的人工智能模型原则来遵循,并通过从(原则应用的)演示中进行上下文学习来指导法学硕士,以对用户的查询产生有用的、合乎道德的和可靠的响应;第三,我们使用高质量的自对齐响应对原始 LLM 进行微调,以便生成的模型可以直接为每个查询生成理想的响应,而无需原则集和演示;最后,我们提供了一个改进步骤来解决过于简短或间接响应的问题。将 SELF-ALIGN 应用于 LLaMA-65b 基础语言模型,我们开发了一个名为 Dromedary 的 AI 助手。少于 300 行人工注释(包括 < 200 个种子提示、16 个通用原则和 5 个用于上下文学习的示例)。在具有各种设置的基准数据集上,Dromedary 的性能显着超过了几个最先进的 AI 系统,包括 Text-Davinci-003 和 Alpaca。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
132 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
152 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
128 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
152 0
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
133 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
179 0
|
自然语言处理 计算机视觉
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
112 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
135 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.16
我们提出了 RECLIP(资源高效 CLIP),这是一种最小化 CLIP(对比语言图像预训练)计算资源占用的简单方法。受计算机视觉中从粗到精概念的启发,我们利用小图像有效地从大规模语言监督中学习,并最终使用高分辨率数据微调模型。由于视觉转换器的复杂性在很大程度上取决于输入图像的大小
170 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
130 0