没有等来OpenAI开源GPT-4o,等来了开源版VITA

简介: 【9月更文挑战第9天】近日,论文《Towards Open-Source Interactive Omni Multimodal LLM》介绍了VITA,一种基于Mixtral 8×7B的新型开源多模态大语言模型,能处理视频、图像、文本和音频等多模态数据,并提供先进的人机交互体验,填补了开源模型在多模态能力上的空白。经多任务学习及指令微调,VITA在多个基准测试中表现出色,但仍存在基础能力和嘈杂音频处理等方面的局限。更多详情见论文:https://arxiv.org/pdf/2408.05211

最近,一篇名为"Towards Open-Source Interactive Omni Multimodal LLM"的论文引起了广泛关注。该论文介绍了一种名为VITA的新型开源多模态大语言模型(MLLM),它能够同时处理和分析视频、图像、文本和音频等多种模态,并具备先进的多模态交互体验。

VITA的出现填补了开源模型在多模态能力上的空白。在此之前,尽管开源模型在其他领域取得了显著进展,但在多模态处理方面却相对较弱。而VITA的出现改变了这一局面,它不仅能够处理多种模态的数据,还能够实现自然的多模态人机交互。

VITA的架构基于Mixtral 8×7B,这是一个具有强大语言能力的模型。为了增强其多模态能力,研究人员对Mixtral进行了一系列的改进和扩展。首先,他们扩展了Mixtral的中文词汇量,并进行了双语指令微调,使其能够更好地理解和生成中文文本。其次,他们通过多任务学习和指令微调的方式,赋予了Mixtral视觉和听觉能力,使其能够处理图像和音频数据。

VITA在多个基准测试中表现出了强大的性能,包括单模态和多模态任务。它能够理解和生成多种语言的文本,并能够根据图像和音频数据生成相应的描述和回答。此外,VITA还具备一些独特的交互功能,如非唤醒交互和音频中断交互,这些功能使得用户能够更自然地与模型进行交互。

然而,尽管VITA在多模态处理和交互方面取得了显著进展,但它仍然存在一些局限性。首先,与专有模型相比,VITA在基础能力方面仍有一定的差距。其次,在嘈杂音频的处理方面,VITA仍然存在一些问题,可能会将非查询音频误认为是查询音频。此外,目前的版本中,文本到语音的转换仍然需要依赖额外的工具,这可能会影响实时交互的性能。

论文地址:https://arxiv.org/pdf/2408.05211

目录
相关文章
|
11天前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
12天前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
1月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
116 65
|
27天前
|
人工智能 搜索推荐 机器人
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
OpenAI新推功能让企业客户能定制GPT-4o模型,通过微调技术满足特定需求和业务场景,以前所未有的方式优化AI投资回报。企业上传自有数据后,可在一到两小时内完成模型定制,如滑板公司打造专业客服聊天机器人解答详细问题,大幅提升服务针对性与客户体验。目前定制限于文本数据,但仍显著增强了企业应用AI的灵活性与效率。
58 2
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
|
10天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
19天前
|
人工智能 API Python
Openai python调用gpt测试代码
这篇文章提供了使用OpenAI的Python库调用GPT-4模型进行聊天的测试代码示例,包括如何设置API密钥、发送消息并接收AI回复。
|
27天前
|
缓存 测试技术 C++
OpenAI GPT-4 Code Interpreter测试
本文分析了OpenAI GPT-4 Beta版本中的Code Interpreter功能,测试了其处理不同文件类型(如图表PNG、长文本PDF、短代码ipynb和长代码C++)的能力,并指出了在处理超出Token Limit内容时的局限性。
27 0
OpenAI GPT-4 Code Interpreter测试
|
1月前
|
人工智能 安全 搜索推荐
OpenAI宣布为企业和消费者提供可定制的GPT
OpenAI宣布为企业和消费者提供可定制的GPT
|
1月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
94 2
|
1月前
|
人工智能 机器人 API
OpenAI内斗对GPT是福是祸?对人类?对微软?
OpenAI内斗对GPT是福是祸?对人类?对微软?