最近,一篇名为"Towards Open-Source Interactive Omni Multimodal LLM"的论文引起了广泛关注。该论文介绍了一种名为VITA的新型开源多模态大语言模型(MLLM),它能够同时处理和分析视频、图像、文本和音频等多种模态,并具备先进的多模态交互体验。
VITA的出现填补了开源模型在多模态能力上的空白。在此之前,尽管开源模型在其他领域取得了显著进展,但在多模态处理方面却相对较弱。而VITA的出现改变了这一局面,它不仅能够处理多种模态的数据,还能够实现自然的多模态人机交互。
VITA的架构基于Mixtral 8×7B,这是一个具有强大语言能力的模型。为了增强其多模态能力,研究人员对Mixtral进行了一系列的改进和扩展。首先,他们扩展了Mixtral的中文词汇量,并进行了双语指令微调,使其能够更好地理解和生成中文文本。其次,他们通过多任务学习和指令微调的方式,赋予了Mixtral视觉和听觉能力,使其能够处理图像和音频数据。
VITA在多个基准测试中表现出了强大的性能,包括单模态和多模态任务。它能够理解和生成多种语言的文本,并能够根据图像和音频数据生成相应的描述和回答。此外,VITA还具备一些独特的交互功能,如非唤醒交互和音频中断交互,这些功能使得用户能够更自然地与模型进行交互。
然而,尽管VITA在多模态处理和交互方面取得了显著进展,但它仍然存在一些局限性。首先,与专有模型相比,VITA在基础能力方面仍有一定的差距。其次,在嘈杂音频的处理方面,VITA仍然存在一些问题,可能会将非查询音频误认为是查询音频。此外,目前的版本中,文本到语音的转换仍然需要依赖额外的工具,这可能会影响实时交互的性能。