使用大型语言模型进行自主视觉信息搜索

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 在调整大型语言模型(LLM)以适应任务的多模态输入方面取得了很大进展,包括图像标题,可视问答 (VQA)和开放词汇识别.尽管取得了这些成就,但当前最先进的视觉语言模型(VLM)在视觉信息搜索数据集上表现不佳,例如信息搜索和OK-VQA,需要外部知识才能回答问题。
推荐:使用 NSDT场景编辑器助你快速搭建3D应用场景
视觉信息寻求查询的示例,其中需要外部知识来回答问题。图像取自 OK-VQA 数据集。

在”AVIS:使用大型语言模型的自主视觉信息搜索“,我们介绍了一种新颖的方法,该方法可以在视觉信息搜索任务上实现最先进的结果。我们的方法将LLM与三种类型的工具集成在一起:(i)用于从图像中提取视觉信息的计算机视觉工具,(ii)用于检索开放世界知识和事实的网络搜索工具,以及(iii)图像搜索工具,用于从与视觉相似的图像相关的元数据中收集相关信息。AVIS聘请了LLM驱动的规划师,在每一步选择工具和查询。它还使用 LLM 驱动的推理器来分析工具输出并提取关键信息。工作记忆组件在整个过程中保留信息。

AVIS生成的工作流程示例,用于回答具有挑战性的视觉信息搜索问题。输入图像取自信息查找数据集。

与以前工作的比较

近期研究(例如,Chameleon, ViperGPT和MM-ReAct)探索向LLM增加多模式输入工具。这些系统遵循两个阶段的过程:计划(将问题分解为结构化程序或指令)和执行(使用工具收集信息)。尽管在基本任务上取得了成功,但这种方法在复杂的现实场景中经常会步履蹒跚。

对将LLM作为自主代理应用的兴趣也激增(例如,WebGPT和ReAct).这些代理与其环境交互,根据实时反馈进行调整,并实现目标。但是,这些方法不会限制在每个阶段可以调用的工具,从而导致巨大的搜索空间。因此,即使是当今最先进的LLM也可能陷入无限循环或传播错误。AVIS通过引导LLM使用来解决这个问题,受到用户研究中人类决策的影响。

通过用户研究为LLM决策提供信息

数据集中的许多视觉问题,例如信息搜索和OK-VQA即使对人类来说也构成了挑战,通常需要各种工具和API的帮助。下面显示了来自 OK-VQA 数据集的示例问题。我们进行了一项用户研究,以了解使用外部工具时的人类决策。

我们进行了一项用户研究,以了解使用外部工具时的人类决策。图像取自 OK-VQA 数据集。

用户配备了与我们的方法相同的工具集,包括巴利语,手掌和网络搜索.他们收到输入图像、问题、检测到的对象裁剪以及与图像搜索结果相关的按钮。这些按钮提供有关检测到的对象裁剪的各种信息,例如知识图谱实体、相似图像标题、相关产品标题和相同的图像标题。

我们记录用户操作和输出,并以两种关键方式将其用作我们系统的指南。首先,我们通过分析用户做出的决策顺序来构建一个过渡图(如下所示)。此图定义不同的状态,并限制每个状态的可用操作集。例如,在启动状态下,系统只能执行以下三个操作之一:PALI 标题、PALI VQA 或对象检测。其次,我们使用人类决策的例子来指导我们的计划者和推理者与相关的上下文实例,以提高我们系统的性能和有效性。

AVIS过渡图。

A. 总体框架

我们的方法采用动态决策策略,旨在响应视觉信息搜索查询。我们的系统有三个主要组成部分。首先,我们有一个计划器来确定后续操作,包括适当的 API 调用和它需要处理的查询。其次,我们有一个工作内存,它保留了有关从 API 执行中获得的结果的信息。最后,我们有一个推理器,其作用是处理 API 调用的输出。它确定获得的信息是否足以产生最终响应,或者是否需要额外的数据检索。

每次需要决定使用哪种工具以及向其发送什么查询时,计划人员都会执行一系列步骤。根据当前状态,规划者提供一系列潜在的后续操作。潜在的操作空间可能太大,以至于搜索空间难以处理。为了解决这个问题,计划者参考了过渡图来消除不相关的操作。计划器还排除了之前已经采取并存储在工作记忆中的操作。

接下来,规划者收集一组相关的上下文示例,这些示例是根据人类在用户研究期间先前做出的决策组装而成的。通过这些示例和保存从过去工具交互中收集的数据的工作记忆,计划人员制定提示。然后将提示发送到LLM,LLM返回结构化答案,确定要激活的下一个工具以及要向其发送的查询。这种设计允许在整个过程中多次调用计划器,从而促进动态决策,逐渐导致回答输入查询。

我们聘请推理器来分析工具执行的输出,提取有用的信息,并确定工具输出属于哪个类别:信息性、无信息性或最终答案。我们的方法利用LLM和适当的提示和上下文示例来执行推理。如果推理者得出结论,它已准备好提供答案,它将输出最终响应,从而完成任务。如果它确定工具输出没有信息,它将返回到计划程序以根据当前状态选择另一个操作。如果它发现工具输出有用,它将修改状态并将控制权转移回计划员,以便在新状态下做出新决策。

AVIS 采用动态决策策略来响应视觉信息搜索查询。

结果

我们评估 AVIS信息搜索和OK-VQA数据。如下所示,即使是健壮的视觉语言模型,例如奥法和巴利语,在 Infoseek 上进行微调时无法产生高精度。我们的方法(AVIS)无需微调,在该数据集的看不见的实体拆分上实现了50.7%的准确率。

Infoseek 数据集上的 AVIS 视觉问答结果。与基于以下的先前基线相比,AVIS 实现了更高的精度巴利语,手掌奥法.

我们在OK-VQA数据集上的结果如下所示。AVIS在上下文中的例子很少,准确率达到60.2%,高于以前的大多数作品。与在OK-VQA上微调的PALI模型相比,AVIS实现了较低但相当的精度。与 AVIS 优于微调 PALI 的 Infoseek 相比,这种差异是由于 OK-VQA 中的大多数问答示例依赖于常识知识而不是细粒度知识。因此,PaLI 能够在模型参数中编码此类通用知识,并且不需要外部知识。

A-OKVQA 上的可视问答结果。与以前使用少镜头或零镜头学习的工作相比,AVIS 实现了更高的准确性,包括火烈鸟,巴利语毒蛇.AVIS还比之前在OK-VQA数据集上微调的大多数工作实现了更高的精度,包括揭示,恢复,凯特克里斯普,并实现接近微调的结果巴利语型。

结论

我们提出了一种新颖的方法,使LLM能够使用各种工具来回答知识密集型视觉问题。我们的方法基于从用户研究中收集的人类决策数据,采用结构化框架,该框架使用LLM驱动的规划器来动态决定工具选择和查询形成。LLM 驱动的推理器的任务是从所选工具的输出中处理和提取关键信息。我们的方法反复使用计划者和推理者来利用不同的工具,直到收集到回答视觉问题所需的所有必要信息。

确认

这项研究由Ziniu Hu,Ahmet Iscen,Chen Sun,Kai-Wei Chang,Yizhou Sun,David A. Ross,Cordelia Schmid和Alireza Fathi进行。


原文链接:使用大型语言模型进行自主视觉信息搜索

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
自然语言处理算法与文档管理软件:提升搜索与分类效率的未来
如果想要让你的文档管理软件更智能、更易用,那就让我们聊一聊如何巧妙地应用自然语言处理(NLP)算法吧!这绝对是提升用户体验和工作效率的“绝佳利器”!下面是一些能帮你通过自然语言处理算法提升文档管理软件的搜索和分类效率的方法——
140 1
|
SQL 人工智能 分布式计算
基于阿里云PAI平台搭建知识库检索增强的大模型对话系统
基于原始的阿里云计算平台产技文档,搭建一套基于大模型检索增强答疑机器人。本方案已在阿里云线上多个场景落地,将覆盖阿里云官方答疑群聊、研发答疑机器人、钉钉技术服务助手等。线上工单拦截率提升10+%,答疑采纳率70+%,显著提升答疑效率。
|
28天前
|
人工智能 搜索推荐 API
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
Perplexica 是一款开源的 AI 驱动搜索引擎,支持多种搜索模式和实时信息更新,适用于个人、学术和企业等不同场景。
133 6
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
|
搜索推荐 算法 知识图谱
搜索场景下的智能推荐演变之路
本文中,阿里巴巴高级算法专家王悦就为大家分享了搜索场景下的智能推荐演变之路。
|
1月前
|
数据采集 人工智能 自然语言处理
文档智能与检索增强生成结合的LLM知识库方案测评:优势与改进空间
《文档智能 & RAG让AI大模型更懂业务》解决方案通过结合文档智能和检索增强生成(RAG)技术,构建企业级文档知识库。方案详细介绍了文档清洗、向量化、问答召回等步骤,但在向量化算法选择、多模态支持和用户界面上有待改进。部署过程中遇到一些技术问题,建议优化性能和增加实时处理能力。总体而言,方案在金融、法律、医疗等领域具有广泛应用前景。
56 11
|
1月前
|
人工智能 弹性计算 文字识别
基于阿里云文档智能和RAG快速构建企业"第二大脑"
在数字化转型的背景下,企业面临海量文档管理的挑战。传统的文档管理方式效率低下,难以满足业务需求。阿里云推出的文档智能(Document Mind)与检索增强生成(RAG)技术,通过自动化解析和智能检索,极大地提升了文档管理的效率和信息利用的价值。本文介绍了如何利用阿里云的解决方案,快速构建企业专属的“第二大脑”,助力企业在竞争中占据优势。
|
2月前
|
自然语言处理 数据可视化 数据挖掘
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
本文探讨了自然语言处理中嵌入技术的应用,重点在于语义搜索及聚类方法。通过对比不同规模的开源与闭源模型,文章展示了如何利用聚类技术过滤无关结果,提高搜索精度。实验结果显示,较小模型如mxbai在某些任务上表现优异,提示我们在追求高性能的同时不应忽视计算效率与成本效益。最后,文章还介绍了重新排序技术,进一步优化检索结果的相关性。
99 6
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
|
5月前
|
人工智能 自然语言处理 搜索推荐
解读阿里云搜索开发工作台如何快速搭建AI语义搜索及RAG链路
本文介绍阿里云搜索开发工作台如何通过内置数据处理、查询分析、排序、效果测评、大模型等服务,结合阿里云搜索引擎及开源引擎,灵活打造AI语义搜索及RAG链路。
19968 15
|
5月前
|
语音技术 计算机视觉