VMB：中科院联合多所高校推出多模态音乐生成框架，能够通过文本、图像和视频等多种输入生成音乐

2024-12-18 807

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： VMB（Visuals Music Bridge）是由中科院联合多所高校机构推出的多模态音乐生成框架，能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

正文

公众号: 蚝油菜花 - VMB

VMB（Visuals Music Bridge）是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构联合推出的多模态音乐生成框架。该框架能够从文本、图像和视频等多种输入模态生成音乐，解决了数据稀缺、跨模态对齐弱和可控性有限的问题。

VMB 通过构建文本桥接和音乐桥接，显著提升了音乐质量、模态对齐和定制化能力。文本桥接将视觉输入转换为详细的音乐描述，音乐桥接则结合广泛和针对性的音乐检索策略，提供用户控制。最终，VMB 通过显式条件音乐生成框架整合两个桥接，生成高质量的音乐。

多模态音乐描述模型（Multimodal Music Description Model）：将视觉输入（如图像和视频）转换成详细的文本描述，为音乐生成提供文本桥接。
双轨音乐检索（Dual-track Music Retrieval）：结合广泛和针对性的音乐检索策略，提供音乐桥接，支持用户修改文本描述或提供参考音乐控制输出音乐。
显式条件音乐生成（Explicitly Conditioned Music Generation）：基于文本桥接和音乐桥接生成音乐，整合两个显式桥接到一个文本到音乐的扩散变换器中。
增强模态对齐：改善输入模态与生成音乐之间的对齐，让音乐更贴近输入的视觉和情感内容。
提升可控性：用户能用文本描述或提供的音乐样本指导音乐生成过程，实现更精细的控制。

文本桥接：使用多模态音乐描述模型（MMDM），基于 InternVL2 构建，将视觉输入转换为自然语言中的详细音乐描述，作为音乐生成的文本桥接。
音乐桥接：基于双轨音乐检索模块，一方面进行广泛检索识别情感和主题内容的全局对齐，另一方面进行针对性检索关注特定音乐属性（如节奏、乐器和流派）。
显式条件音乐生成：结合文本桥接和音乐桥接，使用扩散变换器（DiT）将文本描述转换成音乐。模型使用 Music ControlFormer 整合广泛检索的细粒度控制，使用 Stylization Module 处理针对性检索的整体条件。
检索增强生成（RAG）：在音乐生成中首次探索 RAG 技术，动态结合音乐知识，用桥接模态差距，提升跨模态生成性能，增加可控性。
控制信号融合：在生成过程中，用元素级相加的方式将主分支和 ControlFormer 分支的隐藏状态结合起来，确保在生成的早期阶段建立结构和语义对齐。
风格化模块：将检索到的音乐与文本描述结合起来，基于跨注意力机制将条件表示整合到噪声音乐中，聚焦音乐和文本数据中的风格线索，提高生成音乐与指定属性之间的对齐度。

🥦 微信公众号｜搜一搜：蚝油菜花 🥦