GenMAC：港大、清华联合微软推出文本到视频生成的多代理协作框架

2024-12-10 254

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作，解决了复杂场景生成问题，显著提高了视频生成的准确性和文本对齐度。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

正文

公众号: 蚝油菜花 - GenMAC

GenMAC是由香港大学、清华大学和微软研究院联合推出的多代理协作框架，专门用于解决文本到视频生成中的复杂场景生成问题。该框架通过将任务分解为设计、生成和重新设计三个阶段，并在生成与重新设计之间建立迭代循环，逐步验证和优化视频内容。

在重新设计阶段，框架进一步细分为验证、建议、修正和输出结构化四个子任务，由专门的代理顺序执行。通过自适应自路由机制，选择适合当前场景的代理，实现更准确的视频生成。

任务分解与角色专业化：将复杂的视频生成任务分解为更简单的子任务，为每个子任务分配专门的代理，每个代理都有特定的角色和职责。
迭代循环：在生成和重新设计阶段之间设置迭代循环，模型逐步验证和修正生成的视频，更好地符合文本提示。
代理协作：
- 验证代理：检查视频内容与文本提示的对齐情况。
- 建议代理：基于验证结果提出修正建议，选择适合的修正代理。
- 修正代理：根据建议调整视频设计，如布局和指导比例。
- 输出结构化代理：将修正结果转化为结构化格式，为下一次迭代生成提供输入。
自适应自路由：根据不同的生成需求和场景，自适应地选择最适合的修正代理，处理一致性、时间动态和空间动态等问题。
跨阶段信息流：在设计、生成和重新设计阶段之间，信息（如布局、指导比例和文本提示）不断更新和传递，实现更准确的视频生成。

🥦 微信公众号｜搜一搜：蚝油菜花 🥦