每日学术速递5.8

简介: 最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Personalize Segment Anything Model with One Shot

f4a6c4e0e105549dea841b2e9e0c2f5d.png

标题:一键个性化细分任何模型

作者:Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li

文章链接:https://arxiv.org/abs/2305.03048

项目代码:https://github.com/ZrrSkywalker/Personalize-SAM

869925acb5166503c4085a28821d353a.png

42bdd3806668128dd2ab1163935a11d8.png

62e5cf8624503c1e54de53bc041569d4.png

a7d7fb9fa117ec713aa39068f6180b39.png

3026ec288961c9c667a8f02bfd942d56.png

09e1072c37dc0c455f22a056cad13b30.png

387e828181e285f378036304023da9c3.png

摘要:

       在大数据预训练的驱动下,Segment Anything Model (SAM) 已被证明是一个强大且可提示的框架,彻底改变了分割模型。尽管具有普遍性,但在没有人工提示的情况下为特定视觉概念定制 SAM 仍在探索中,例如,在不同的图像中自动分割您的宠物狗。在本文中,我们提出了一种用于 SAM 的免训练个性化方法,称为 PerSAM。只给定一张带有参考掩码的图像,PerSAM 首先通过一个位置先验定位目标概念,然后通过三种技术在其他图像或视频中将其分割:目标引导注意、目标语义提示和级联后细化。通过这种方式,我们无需任何培训即可有效地将 SAM 用于私人用途。为了进一步减轻掩模歧义,我们提出了一种有效的单次微调变体 PerSAM-F。冻结整个 SAM,我们为多尺度掩码引入了两个可学习的权重,仅在 10 秒内训练 2 个参数以提高性能。为了证明我们的功效,我们构建了一个新的分割数据集 PerSeg,用于个性化评估,并测试我们的视频对象分割方法具有竞争力的性能。此外,我们的方法还可以增强 DreamBooth 以个性化用于文本到图像生成的稳定扩散,从而丢弃背景干扰以实现更好的目标外观学习。代码在此 https URL 上发布

2.FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction(ACL 2023)

6049f97f853f8a57749751d409a63c78.png

标题:FormNetV2:用于表单文档信息提取的多模态图对比学习

作者:Chen-Yu Lee, Chun-Liang Li, Hao Zhang, Timothy Dozat, Vincent Perot, Guolong Su, Xiang Zhang

文章链接:https://arxiv.org/abs/2305.02549

项目代码:https://huggingface.co/papers/2305.02549

01af2b4ac2c0f3d90b9d29903476413d.png

fd927f613ed057167c30f7ca56c91105.png

b4695030ff4dc3cebc614323426f1ae4.png

f5cd3c5c421738b1914c87cd24981a32.png

摘要:

       最近出现的自我监督预训练技术导致在表格文档理解中使用多模态学习的激增。然而,将掩码语言建模扩展到其他模态的现有方法需要仔细的多任务调整、复杂的重建目标设计或额外的预训练数据。在 FormNetV2 中,我们引入了一种集中式多模态图对比学习策略,以在一次损失中统一所有模态的自我监督预训练。图对比目标最大化多模态表示的一致性,为所有模态提供自然的相互作用,无需特殊定制。此外,我们提取边界框内的图像特征,边界框连接一对由图形边缘连接的标记,捕获更有针对性的视觉线索,而无需加载复杂且单独预训练的图像嵌入器。FormNetV2 以更紧凑的模型尺寸在 FUNSD、CORD、SROIE 和支付基准上建立了新的最先进性能。

Subjects: cs.CL


3.Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

75cf26b27e31582ee366b8502ae7cc38.png

标题:在最少的人工监督下从头开始进行语言模型的原则驱动自对齐

作者:Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan

文章链接:https://arxiv.org/abs/2305.03047

项目代码:https://mitibmdemos.draco.res.ibm.com/dromedary

f24b749d8f2876f964e9584c07737ab0.png

6f050374a7661738741658fc5843a61f.png

79061c4966526120c39cae691315d21e.png

摘要:

       最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题,这种依赖性会极大地限制 AI 助手的真正潜力。为了应对这些挑战,我们提出了一种称为 SELF-ALIGN 的新方法,它结合了原则驱动的推理和 LLM 的生成能力,以在最少的人工监督下实现 AI 代理的自对齐。我们的方法包括四个阶段:首先,我们使用 LLM 生成合成提示,并使用主题引导方法来增加提示的多样性;其次,我们使用一小组人工编写的人工智能模型原则来遵循,并通过从(原则应用的)演示中进行上下文学习来指导法学硕士,以对用户的查询产生有用的、合乎道德的和可靠的响应;第三,我们使用高质量的自对齐响应对原始 LLM 进行微调,以便生成的模型可以直接为每个查询生成理想的响应,而无需原则集和演示;最后,我们提供了一个改进步骤来解决过于简短或间接响应的问题。将 SELF-ALIGN 应用于 LLaMA-65b 基础语言模型,我们开发了一个名为 Dromedary 的 AI 助手。少于 300 行人工注释(包括 < 200 个种子提示、16 个通用原则和 5 个用于上下文学习的示例)。在具有各种设置的基准数据集上,Dromedary 的性能显着超过了几个最先进的 AI 系统,包括 Text-Davinci-003 和 Alpaca。

目录
相关文章
|
物联网 Java 开发工具
如何编辑一个NFC的软件
如何编辑一个NFC的软件
531 1
|
移动开发 Java 开发工具
Android客户端三步完成支付宝支付SDK接入
Android客户端三步完成支付宝支付SDK接入
2416 0
|
10月前
|
API PHP
2025宝塔API一键建站系统PHP源码
2025宝塔API一键建站系统PHP源码
312 90
|
API 图形学
U3D客户端框架之实现基于UnityWebRequest的Http服务 实现HttpCallBackArgs参数类、HttpRoutine访问器、HttpManager管理器
Unity3D 在2018版本中弃用了WWW请求,使用UnityWebRequest 进行网络请求,这个方法是为了满足今天的 HTTP 通信的需求,而且诞生的新类,相对于WWW这个方法,会更灵活一些,但是用起来却很不方便。
1055 0
U3D客户端框架之实现基于UnityWebRequest的Http服务 实现HttpCallBackArgs参数类、HttpRoutine访问器、HttpManager管理器
|
监控 Unix 应用服务中间件
Android-音视频学习系列-(八)基于-Nginx-搭建(rtmp、http)直播服务器
Android-音视频学习系列-(八)基于-Nginx-搭建(rtmp、http)直播服务器
|
搜索推荐
ChatGPT高效提问—prompt实践(法律助手)
ChatGPT高效提问—prompt实践(法律助手)
387 0
|
API 开发工具 Android开发
Android Studio:解决AOSP自编译framework.jar引用不到的问题
在Android Studio中解决AOSP自编译framework.jar引用问题的几种方法,包括使用相对路径、绝对路径和通过`${project.rootDir}`动态获取路径的方法,以避免硬编码路径带来的配置问题。
1461 0
Android Studio:解决AOSP自编译framework.jar引用不到的问题
|
机器学习/深度学习 编解码 监控
深度学习之超分辨率
基于深度学习的超分辨率(Super-Resolution, SR)技术旨在从低分辨率(Low-Resolution, LR)图像中重建出高分辨率(High-Resolution, HR)图像。超分辨率技术在医疗影像、卫星图像、视频处理、安防监控等领域有着广泛的应用。
327 0
|
NoSQL Linux C语言
gdb基本使用快捷键
1. gdb简介 gdb是Linux下的代码调试工具。 程序的发布有debug模式和release模式,Linux的gcc/g++模式,默认是release模式。若想在Linux下调试,程序必须为debug模式。使用:
395 0
|
数据可视化 API 数据安全/隐私保护
揭秘阿里巴巴:如何通过API实时捕获中国市场商品数据
按关键字搜索商品API是阿里巴巴中国站提供的一套强大的API接口,用于根据用户输入的关键词在平台上搜索相应的商品信息。通过该API,开发者可以实时获取到符合关键词条件的商品列表,包括商品ID、名称、描述、价格等详细数据。此外,API还提供了丰富的筛选条件和排序选项,以满足不同场景下的数据获取需求。