没有等来OpenAI开源GPT-4o,等来了开源版VITA

简介: 【9月更文挑战第9天】近日,论文《Towards Open-Source Interactive Omni Multimodal LLM》介绍了VITA,一种基于Mixtral 8×7B的新型开源多模态大语言模型,能处理视频、图像、文本和音频等多模态数据,并提供先进的人机交互体验,填补了开源模型在多模态能力上的空白。经多任务学习及指令微调,VITA在多个基准测试中表现出色,但仍存在基础能力和嘈杂音频处理等方面的局限。更多详情见论文:https://arxiv.org/pdf/2408.05211

最近,一篇名为"Towards Open-Source Interactive Omni Multimodal LLM"的论文引起了广泛关注。该论文介绍了一种名为VITA的新型开源多模态大语言模型(MLLM),它能够同时处理和分析视频、图像、文本和音频等多种模态,并具备先进的多模态交互体验。

VITA的出现填补了开源模型在多模态能力上的空白。在此之前,尽管开源模型在其他领域取得了显著进展,但在多模态处理方面却相对较弱。而VITA的出现改变了这一局面,它不仅能够处理多种模态的数据,还能够实现自然的多模态人机交互。

VITA的架构基于Mixtral 8×7B,这是一个具有强大语言能力的模型。为了增强其多模态能力,研究人员对Mixtral进行了一系列的改进和扩展。首先,他们扩展了Mixtral的中文词汇量,并进行了双语指令微调,使其能够更好地理解和生成中文文本。其次,他们通过多任务学习和指令微调的方式,赋予了Mixtral视觉和听觉能力,使其能够处理图像和音频数据。

VITA在多个基准测试中表现出了强大的性能,包括单模态和多模态任务。它能够理解和生成多种语言的文本,并能够根据图像和音频数据生成相应的描述和回答。此外,VITA还具备一些独特的交互功能,如非唤醒交互和音频中断交互,这些功能使得用户能够更自然地与模型进行交互。

然而,尽管VITA在多模态处理和交互方面取得了显著进展,但它仍然存在一些局限性。首先,与专有模型相比,VITA在基础能力方面仍有一定的差距。其次,在嘈杂音频的处理方面,VITA仍然存在一些问题,可能会将非查询音频误认为是查询音频。此外,目前的版本中,文本到语音的转换仍然需要依赖额外的工具,这可能会影响实时交互的性能。

论文地址:https://arxiv.org/pdf/2408.05211

目录
相关文章
|
7天前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
99 60
|
1天前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
1月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
1月前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务
|
20天前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
3天前
|
API
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
2024-05-14 最新!OpenAI 新模型 GPT-4 omni 简单测试,4o速度确实非常快!而且很便宜!
11 0
|
2月前
|
人工智能 搜索推荐 机器人
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
OpenAI新推功能让企业客户能定制GPT-4o模型,通过微调技术满足特定需求和业务场景,以前所未有的方式优化AI投资回报。企业上传自有数据后,可在一到两小时内完成模型定制,如滑板公司打造专业客服聊天机器人解答详细问题,大幅提升服务针对性与客户体验。目前定制限于文本数据,但仍显著增强了企业应用AI的灵活性与效率。
72 2
OpenAI 将向企业开放 GPT-4o 模型定制版,国内怎么使用ChatGPT?
|
1月前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
2月前
|
人工智能 API Python
Openai python调用gpt测试代码
这篇文章提供了使用OpenAI的Python库调用GPT-4模型进行聊天的测试代码示例,包括如何设置API密钥、发送消息并接收AI回复。
|
2月前
|
缓存 测试技术 C++
OpenAI GPT-4 Code Interpreter测试
本文分析了OpenAI GPT-4 Beta版本中的Code Interpreter功能,测试了其处理不同文件类型(如图表PNG、长文本PDF、短代码ipynb和长代码C++)的能力,并指出了在处理超出Token Limit内容时的局限性。
40 0
OpenAI GPT-4 Code Interpreter测试