威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4



 新智元报道  

编辑:拉燕

【新智元导读】微软&哥大联合发表视觉指令微调论文,LLaVA出炉!


视觉指令微调火了。这篇论文名为Visual Instruction Tuning,由威斯康星大学麦迪逊分校,微软研究院和哥伦比亚大学共同出品。作者包括Haotian Liu,Chunyuan Li,Qingyang Wu和Yong Jae Lee。同时,研究人员也在GitHub上开源了他们的代码、模型和数据集。论文也发布在了Arxiv上。

讲解

那么LLaVA的功能究竟是什么呢?如果一头扎进论文,不熟悉的朋友可能会有些陌生。我们先看看LLaVA自己怎么说。以上回答生成自LLaVA的Chatbot,我输入的问题是,LLaVA的功能是什么,用户该如何利用它?回答如下:LLaVA是一个大语言和视觉助手,在UW Madison WAIV实验室经受的训练。LLaVA被设计出来的目的,就是帮助用户处理各类任务,方法则是借助自然语言理解的能力和视觉内容分析的能力。LLaVA的主要功能包括:· 以文本为基础的任务:LLaVA可以处理并分析文本,允许用户问问题,LLaVA可以和用户交谈,或者完成用户输入的任务,比如说提炼文件概要,情感分析,实体识别等等。· 以图像为基础的任务:LLaVA可以分析图像,描述图像,进行物体识别,分析理解场景。用户如果想更好地应用LLaVA,可以直接和LLaVA进行交谈,就像和人类之间对话一样。尽可能多的提供细节,LLaVA就会生成出一个更完善的答案。同时应该记住,说到底LLaVA是一个机器学习模型,是一个AI工具。只要是工具,就有其限制。LLaVA不一定每一次都能完美地回答用户输入的问题。当然,LLaVA也在不断学习和完善,其功能也会越来越强大。总的来说,从LLaVA的回答中可以看出,在Chatbot这方面,和GPT的功能差不了太多。但是LLaVA可以处理一些有关图像的任务。

表现出彩


研究人员在Arxiv的论文中详细介绍了LLaVA的技术细节。要知道使用机器生成的指令跟随数据对大型语言模型(LLMs)进行指令微调,提高了新任务的零点能力,但这个想法在多模态领域的探索较少。在论文中,研究人员首次尝试使用仅有语言的GPT-4来生成多模态语言图像的指令跟随数据。通过对这种生成的数据进行指令调整,研究人员引入了LLaVA:这是一个大型语言和视觉助手,是一个端到端的训练有素的大型多模态模型,它连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。早期实验表明,LLaVA展示了令人印象深刻的多模态聊天能力,有时在未见过的图像/指令上都能输出多模态GPT-4的表现,在合成的多模态指令跟随数据集上与GPT-4相比,获得了85.1%的相对分数。当对Science杂志进行微调时,LLaVA和GPT-4的协同作用达到了92.53%的新的最先进的准确性。研究人员公开了GPT-4生成的视觉指令调整的数据、模型和代码库。

多模态模型


首先厘清定义。大型多模态模型指的就是一种基于机器学习技术的模型,能够处理和分析多种输入类型,如文本和图像。这些模型设计用于处理更广泛的任务,并且能够理解不同形式的数据。通过将文本和图像作为输入,这些模型可以提高理解和编解释的能力,从而生成更准确和相关的回答。人类通过视觉和语言等多种渠道与世界互动,因为每个单独的渠道在代表和传达某些世界概念方面都有独特的优势,从而有利于更好地理解世界。而人工智能的核心愿望之一是开发一个通用的助手,能够有效地遵循多模态的视觉和语言指令,与人类的意图一致,完成各种真实世界的任务。因此,开发者社区见证了对开发语言增强的基础视觉模型的新兴趣,在开放世界的视觉理解方面具有强大的能力,如分类、检测、分割、描述,以及视觉生成和编辑。在这些功能中,每个任务都由一个单一的大型视觉模型独立解决,在模型设计中隐含考虑了任务指令。此外,语言只被用来描述图像内容。虽然这允许语言在将视觉信号映射到语言语义方面发挥重要作用——这是人类交流的常见渠道。但这会导致模型通常具有固定的界面,互动性和对用户指令的适应性有限。而大型语言模型(LLM)表明,语言可以发挥更广泛的作用:通用助手的通用界面,各种任务指令可以明确地用语言表示,并引导端到端训练有素的神经助手切换到感兴趣的任务来解决它。例如,最近ChatGPT和GPT-4的成功,证明了这种LLM在遵循人类指令方面的能力,并激发了人们对开发开源LLM的巨大兴趣。LLaMA就是一个开源的LLM,其性能与GPT-3相当。正在进行的工作利用各种机器生成的高质量指令跟随样本来提高LLM的对齐能力,与专有LLM相比,报告了令人印象深刻的性能。重要的是,这一行的工作是纯文本的。在本文中,研究人员提出了视觉指令调整,这是将指令调整扩展到多模态空间的首次尝试,它为建立一个通用的视觉助手铺平了道路。具体来说,论文的主要内容包括:

多模态的指令跟随数据。一个关键的挑战是缺乏视觉语言指令-跟随数据。我们提出了一个数据改革的观点和管道,使用ChatGPT/GPT-4将图像-文本对转换为适当的指令-跟随格式。

大型多模态模型。研究人员开发了一个大型多模态模型(LMM),通过连接CLIP的开放集视觉编码器和语言解码器LaMA,并在生成的教学视觉——语言数据上对它们进行端到端的微调。实证研究验证了使用生成的数据进行LMM指令调谐的有效性,并为建立一个通用的指令跟随的视觉代理提出了实用的建议。通过GPT 4,研究小组在Science QA多模态推理数据集上取得了最先进的性能。

开源。研究小组向公众发开了以下内容:生成的多模态指令数据、用于数据生成和模型训练的代码库、模型检查点,以及一个视觉聊天演示。

成果展示


可以看到,LLaVA能处理各类问题,且生成的回答既全面又富有逻辑。LLaVA表现出一些接近GPT-4水平的多模态能力,在视觉聊天方面,GPT-4相对评分85%。而在推理问答方面,LLaVA甚至达到了新SoTA——92.53%,击败多模态思维链。参考资料:https://llava-vl.github.io/

相关文章
|
1月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
152 60
|
3月前
|
存储 人工智能 异构计算
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
33 0
|
22天前
|
人工智能 测试技术 人机交互
mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVA
【10月更文挑战第24天】EMOVA(EMotionally Omni-present Voice Assistant)是一项多模态全能助手的研究,旨在实现更自然、更智能的人机交互。该模型不仅能够处理图像、文本和语音,还具备丰富的情感表达能力。通过语义-声学解耦的语音标记器、全模态对齐和轻量级风格模块,EMOVA在视觉-语言和语音基准测试中表现出色,适用于智能助手、虚拟现实、教育和娱乐等领域。
17 3
|
27天前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
170 6
|
1月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
47 6
|
2月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
56 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
1月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
58 0
|
2月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
79 10
|
3月前
|
机器学习/深度学习
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
【8月更文挑战第16天】近日,清华大学等机构发布了MultiTrust多模态评估研究,旨在全面评估大型语言模型的可信度。这是首个统一的多模态基准,覆盖真实性、安全性等五大方面,包含32个任务。研究对21个现代模型进行了实验,揭示了可信度问题和风险,强调了提高模型可靠性的重要性。结果显示开源模型在可信度上落后于专有模型,特别是在安全性方面。此外,研究还发现了模型在鲁棒性、公平性和隐私方面的挑战。论文已发布于arxiv.org。
62 1
|
3月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
49 1

热门文章

最新文章

下一篇
无影云桌面