❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 多模态音乐生成:VMB 能够从文本、图像和视频等多种输入模态生成音乐。
- 技术创新:通过文本桥接和音乐桥接,解决了数据稀缺和跨模态对齐问题。
- 应用广泛:适用于电影、游戏、虚拟现实等多个领域,提升音乐生成的质量和可控性。
正文
VMB 是什么
VMB(Visuals Music Bridge)是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构联合推出的多模态音乐生成框架。该框架能够从文本、图像和视频等多种输入模态生成音乐,解决了数据稀缺、跨模态对齐弱和可控性有限的问题。
VMB 通过构建文本桥接和音乐桥接,显著提升了音乐质量、模态对齐和定制化能力。文本桥接将视觉输入转换为详细的音乐描述,音乐桥接则结合广泛和针对性的音乐检索策略,提供用户控制。最终,VMB 通过显式条件音乐生成框架整合两个桥接,生成高质量的音乐。
VMB 的主要功能
- 多模态音乐描述模型(Multimodal Music Description Model):将视觉输入(如图像和视频)转换成详细的文本描述,为音乐生成提供文本桥接。
- 双轨音乐检索(Dual-track Music Retrieval):结合广泛和针对性的音乐检索策略,提供音乐桥接,支持用户修改文本描述或提供参考音乐控制输出音乐。
- 显式条件音乐生成(Explicitly Conditioned Music Generation):基于文本桥接和音乐桥接生成音乐,整合两个显式桥接到一个文本到音乐的扩散变换器中。
- 增强模态对齐:改善输入模态与生成音乐之间的对齐,让音乐更贴近输入的视觉和情感内容。
- 提升可控性:用户能用文本描述或提供的音乐样本指导音乐生成过程,实现更精细的控制。
VMB 的技术原理
- 文本桥接:使用多模态音乐描述模型(MMDM),基于 InternVL2 构建,将视觉输入转换为自然语言中的详细音乐描述,作为音乐生成的文本桥接。
- 音乐桥接:基于双轨音乐检索模块,一方面进行广泛检索识别情感和主题内容的全局对齐,另一方面进行针对性检索关注特定音乐属性(如节奏、乐器和流派)。
- 显式条件音乐生成:结合文本桥接和音乐桥接,使用扩散变换器(DiT)将文本描述转换成音乐。模型使用 Music ControlFormer 整合广泛检索的细粒度控制,使用 Stylization Module 处理针对性检索的整体条件。
- 检索增强生成(RAG):在音乐生成中首次探索 RAG 技术,动态结合音乐知识,用桥接模态差距,提升跨模态生成性能,增加可控性。
- 控制信号融合:在生成过程中,用元素级相加的方式将主分支和 ControlFormer 分支的隐藏状态结合起来,确保在生成的早期阶段建立结构和语义对齐。
- 风格化模块:将检索到的音乐与文本描述结合起来,基于跨注意力机制将条件表示整合到噪声音乐中,聚焦音乐和文本数据中的风格线索,提高生成音乐与指定属性之间的对齐度。
资源
- GitHub 仓库:https://github.com/wbs2788/VMB
- arXiv 技术论文:https://arxiv.org/pdf/2412.09428
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦