威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4



 新智元报道  

编辑:拉燕

【新智元导读】微软&哥大联合发表视觉指令微调论文,LLaVA出炉!


视觉指令微调火了。这篇论文名为Visual Instruction Tuning,由威斯康星大学麦迪逊分校,微软研究院和哥伦比亚大学共同出品。作者包括Haotian Liu,Chunyuan Li,Qingyang Wu和Yong Jae Lee。同时,研究人员也在GitHub上开源了他们的代码、模型和数据集。论文也发布在了Arxiv上。

讲解

那么LLaVA的功能究竟是什么呢?如果一头扎进论文,不熟悉的朋友可能会有些陌生。我们先看看LLaVA自己怎么说。以上回答生成自LLaVA的Chatbot,我输入的问题是,LLaVA的功能是什么,用户该如何利用它?回答如下:LLaVA是一个大语言和视觉助手,在UW Madison WAIV实验室经受的训练。LLaVA被设计出来的目的,就是帮助用户处理各类任务,方法则是借助自然语言理解的能力和视觉内容分析的能力。LLaVA的主要功能包括:· 以文本为基础的任务:LLaVA可以处理并分析文本,允许用户问问题,LLaVA可以和用户交谈,或者完成用户输入的任务,比如说提炼文件概要,情感分析,实体识别等等。· 以图像为基础的任务:LLaVA可以分析图像,描述图像,进行物体识别,分析理解场景。用户如果想更好地应用LLaVA,可以直接和LLaVA进行交谈,就像和人类之间对话一样。尽可能多的提供细节,LLaVA就会生成出一个更完善的答案。同时应该记住,说到底LLaVA是一个机器学习模型,是一个AI工具。只要是工具,就有其限制。LLaVA不一定每一次都能完美地回答用户输入的问题。当然,LLaVA也在不断学习和完善,其功能也会越来越强大。总的来说,从LLaVA的回答中可以看出,在Chatbot这方面,和GPT的功能差不了太多。但是LLaVA可以处理一些有关图像的任务。

表现出彩


研究人员在Arxiv的论文中详细介绍了LLaVA的技术细节。要知道使用机器生成的指令跟随数据对大型语言模型(LLMs)进行指令微调,提高了新任务的零点能力,但这个想法在多模态领域的探索较少。在论文中,研究人员首次尝试使用仅有语言的GPT-4来生成多模态语言图像的指令跟随数据。通过对这种生成的数据进行指令调整,研究人员引入了LLaVA:这是一个大型语言和视觉助手,是一个端到端的训练有素的大型多模态模型,它连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。早期实验表明,LLaVA展示了令人印象深刻的多模态聊天能力,有时在未见过的图像/指令上都能输出多模态GPT-4的表现,在合成的多模态指令跟随数据集上与GPT-4相比,获得了85.1%的相对分数。当对Science杂志进行微调时,LLaVA和GPT-4的协同作用达到了92.53%的新的最先进的准确性。研究人员公开了GPT-4生成的视觉指令调整的数据、模型和代码库。

多模态模型


首先厘清定义。大型多模态模型指的就是一种基于机器学习技术的模型,能够处理和分析多种输入类型,如文本和图像。这些模型设计用于处理更广泛的任务,并且能够理解不同形式的数据。通过将文本和图像作为输入,这些模型可以提高理解和编解释的能力,从而生成更准确和相关的回答。人类通过视觉和语言等多种渠道与世界互动,因为每个单独的渠道在代表和传达某些世界概念方面都有独特的优势,从而有利于更好地理解世界。而人工智能的核心愿望之一是开发一个通用的助手,能够有效地遵循多模态的视觉和语言指令,与人类的意图一致,完成各种真实世界的任务。因此,开发者社区见证了对开发语言增强的基础视觉模型的新兴趣,在开放世界的视觉理解方面具有强大的能力,如分类、检测、分割、描述,以及视觉生成和编辑。在这些功能中,每个任务都由一个单一的大型视觉模型独立解决,在模型设计中隐含考虑了任务指令。此外,语言只被用来描述图像内容。虽然这允许语言在将视觉信号映射到语言语义方面发挥重要作用——这是人类交流的常见渠道。但这会导致模型通常具有固定的界面,互动性和对用户指令的适应性有限。而大型语言模型(LLM)表明,语言可以发挥更广泛的作用:通用助手的通用界面,各种任务指令可以明确地用语言表示,并引导端到端训练有素的神经助手切换到感兴趣的任务来解决它。例如,最近ChatGPT和GPT-4的成功,证明了这种LLM在遵循人类指令方面的能力,并激发了人们对开发开源LLM的巨大兴趣。LLaMA就是一个开源的LLM,其性能与GPT-3相当。正在进行的工作利用各种机器生成的高质量指令跟随样本来提高LLM的对齐能力,与专有LLM相比,报告了令人印象深刻的性能。重要的是,这一行的工作是纯文本的。在本文中,研究人员提出了视觉指令调整,这是将指令调整扩展到多模态空间的首次尝试,它为建立一个通用的视觉助手铺平了道路。具体来说,论文的主要内容包括:

多模态的指令跟随数据。一个关键的挑战是缺乏视觉语言指令-跟随数据。我们提出了一个数据改革的观点和管道,使用ChatGPT/GPT-4将图像-文本对转换为适当的指令-跟随格式。

大型多模态模型。研究人员开发了一个大型多模态模型(LMM),通过连接CLIP的开放集视觉编码器和语言解码器LaMA,并在生成的教学视觉——语言数据上对它们进行端到端的微调。实证研究验证了使用生成的数据进行LMM指令调谐的有效性,并为建立一个通用的指令跟随的视觉代理提出了实用的建议。通过GPT 4,研究小组在Science QA多模态推理数据集上取得了最先进的性能。

开源。研究小组向公众发开了以下内容:生成的多模态指令数据、用于数据生成和模型训练的代码库、模型检查点,以及一个视觉聊天演示。

成果展示


可以看到,LLaVA能处理各类问题,且生成的回答既全面又富有逻辑。LLaVA表现出一些接近GPT-4水平的多模态能力,在视觉聊天方面,GPT-4相对评分85%。而在推理问答方面,LLaVA甚至达到了新SoTA——92.53%,击败多模态思维链。参考资料:https://llava-vl.github.io/

相关文章
|
1月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
39 1
|
3天前
|
人工智能 自然语言处理 算法
大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
【6月更文挑战第25天】 - 复旦大学和上海AI Lab的研究者提出这一算法,用于增强大型语言模型在复杂数学推理任务中的能力,解决现有模型推理准确性问题。 - **MCTSr**流程包括初始化、选择、自细化、自评估、反向传播和UCT更新,通过多轮迭代提升答案质量。 - 实验显示,该算法在**GSM8K**、**GSM Hard**、**MATH**和**Olympiad-level**数据集上表现出色,尤其在多次迭代后。 - 尽管计算成本高且不适用于所有问题类型,但研究揭示了强化LLMs推理能力的新途径,对未来的AI应用具有指导意义。
30 8
|
1月前
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
35 1
|
1月前
|
人工智能 自然语言处理 数据可视化
一键本地部署类GPT大模型,免费!
一键本地部署类GPT大模型,免费!
90 1
|
1月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
45 4
|
1月前
|
数据采集 编解码 人工智能
超越GPT-4V,苹果多模态大模型上新!
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
59 1
超越GPT-4V,苹果多模态大模型上新!
|
1月前
|
机器学习/深度学习 传感器 人工智能
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
46 1
|
1月前
|
人工智能 JSON 安全
超越GPT4!Cluade 3重磅发布!国外最新大模型!
超越GPT4!Cluade 3重磅发布!国外最新大模型!
38 0
|
1月前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
72 0
|
1月前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
60 0