❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 多模态理解与推理:Lyra能处理图像、视频、音频和文本等多种模态的数据,执行复杂的理解和推理任务。
- 语音中心能力:模型特别强化对语音的理解,包括长语音的识别和处理,在语音交互方面表现出色。
- 高效处理:Lyra在训练和推理时更加高效,用更少的数据和计算资源,适合实时和长上下文的多模态应用。
正文(附运行示例)
Lyra 是什么
Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型(MLLM),专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正则化器,减少训练成本和数据需求。Lyra构建大规模的多模态数据集,包括长语音样本,处理复杂的长语音输入,实现强大的全模态认知能力。
Lyra在多种模态理解和推理任务中,达到最先进的性能,同时在计算资源和训练数据的使用上更为高效。它支持多种模态的输入和输出,包括图像、视频、音频和文本,能够在复杂的交互场景中表现出色。
Lyra 的主要功能
- 多模态理解与推理:Lyra能理解和处理图像、视频、音频和文本等多种模态的数据,执行复杂的理解和推理任务。
- 语音中心能力:模型特别强化对语音的理解,包括长语音的识别和处理,在语音交互方面表现出色。
- 高效处理:Lyra在训练和推理时更加高效,用更少的数据和计算资源,适合实时和长上下文的多模态应用。
- 流式生成:支持同时生成文本和语音输出,在对话和交互中实时响应。
- 跨模态交互:基于潜在的多模态正则化器和提取器,加强不同模态之间的信息交互,提升模型性能。
Lyra 的技术原理
- 多模态LoRA(Low-Rank Adaptation):基于LoRA技术适配多模态输入,模型在保留原有视觉能力的同时,发展在语音模态中的能力,减少训练数据的需求。
- 潜在跨模态正则化器:基于动态时间弯曲(Dynamic Time Warping, DTW)算法,将语音令牌与对应的文本令牌对齐,让语音模态的输入在语义上与文本模态保持一致。
- 潜在多模态提取器:基于评估不同模态令牌与文本查询的相关性,动态选择和保留与任务最相关的令牌,提高训练和推理的效率。
- 长语音能力集成:构建专门的长语音SFT数据集,基于压缩技术处理长语音令牌,让模型处理长达数小时的音频输入。
- 流式文本-语音生成:集成流式生成机制,支持模型在生成文本的同时输出对应的语音,实现无缝的多模态交互体验。
如何运行 Lyra
Lyra的运行需要一定的环境配置和数据准备。以下是运行Lyra的基本步骤:
安装依赖
克隆仓库:
git clone https://github.com/dvlab-research/Lyra.git
创建并激活虚拟环境:
conda create -n lyra python=3.10 -y conda activate lyra cd Lyra pip install --upgrade pip pip install -e .
安装可选包以支持同时生成文本和语音:
pip install pip==24.0 pip install fairseq==0.12.2 pip install --upgrade pip
数据准备
Lyra的训练和评估数据需要从指定的链接下载并组织。具体步骤请参考Lyra的项目文档。
运行示例
以下是一个简单的运行示例,展示如何使用Lyra进行多模态交互:
from lyra.serve.cli import LyraCLI
# 初始化Lyra模型
lyra_cli = LyraCLI(model_path="work_dirs/Lyra_Base_9B")
# 加载图像和音频文件
image_file = "examples/Chinese_painting.jpg"
audio_file = "examples/Chinese_painting.mp3"
# 生成文本和语音输出
lyra_cli.generate_response(image_file=image_file, audio_file=audio_file, generate_speech=True)
资源
- 项目官网:https://lyra-omni.github.io/
- GitHub 仓库:https://github.com/dvlab-research/Lyra
- HuggingFace 模型库:https://huggingface.co/collections/zszhong/lyra-model-674ea5bb3b39ff8f15de75fc
- arXiv 技术论文:https://arxiv.org/pdf/2412.09501
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦