GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作,解决了复杂场景生成问题,显著提高了视频生成的准确性和文本对齐度。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 任务分解:将复杂的视频生成任务分解为多个子任务,每个子任务由专门的代理处理。
  2. 迭代循环:通过设计、生成和重新设计三个阶段的迭代循环,逐步优化视频内容。
  3. 多代理协作:多个专业化的代理协作,确保视频生成的准确性和文本对齐度。

正文

GenMAC 是什么

公众号: 蚝油菜花 - GenMAC

GenMAC是由香港大学、清华大学和微软研究院联合推出的多代理协作框架,专门用于解决文本到视频生成中的复杂场景生成问题。该框架通过将任务分解为设计、生成和重新设计三个阶段,并在生成与重新设计之间建立迭代循环,逐步验证和优化视频内容。

在重新设计阶段,框架进一步细分为验证、建议、修正和输出结构化四个子任务,由专门的代理顺序执行。通过自适应自路由机制,选择适合当前场景的代理,实现更准确的视频生成。

GenMAC 的主要功能

  • 组合文本到视频生成:根据复杂的组合文本提示生成视频,处理多对象、属性绑定、时间动态和对象间交互的场景。
  • 迭代工作流程:通过设计、生成和重新设计三个阶段的迭代循环,逐步完善视频内容。
  • 多代理协作:使用多个专业化的多模态大型语言模型(MLLM)代理,每个代理负责处理特定的子任务,实现集体智能。
  • 任务分解:重新设计阶段被分解为验证、建议、修正和输出结构化四个子任务,由不同的代理顺序执行。
  • 自适应自路由机制:根据不同的生成场景,自适应地选择最适合的代理进行修正。
  • 提高场景准确性和文本对齐:通过多代理协作和迭代细化,提高视频场景的准确性和与文本提示的对齐度。

GenMAC 的技术原理

  • 任务分解与角色专业化:将复杂的视频生成任务分解为更简单的子任务,为每个子任务分配专门的代理,每个代理都有特定的角色和职责。
  • 迭代循环:在生成和重新设计阶段之间设置迭代循环,模型逐步验证和修正生成的视频,更好地符合文本提示。
  • 代理协作
    • 验证代理:检查视频内容与文本提示的对齐情况。
    • 建议代理:基于验证结果提出修正建议,选择适合的修正代理。
    • 修正代理:根据建议调整视频设计,如布局和指导比例。
    • 输出结构化代理:将修正结果转化为结构化格式,为下一次迭代生成提供输入。
  • 自适应自路由:根据不同的生成需求和场景,自适应地选择最适合的修正代理,处理一致性、时间动态和空间动态等问题。
  • 跨阶段信息流:在设计、生成和重新设计阶段之间,信息(如布局、指导比例和文本提示)不断更新和传递,实现更准确的视频生成。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能
微软靠“想象力”解决大语言模型调用工具两大难题!方法已开源
【2月更文挑战第24天】微软靠“想象力”解决大语言模型调用工具两大难题!方法已开源
74 1
微软靠“想象力”解决大语言模型调用工具两大难题!方法已开源
|
8月前
|
存储 人工智能 自然语言处理
社区供稿 | 开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE
OneKE 是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE 以开源形式贡献给 OpenKG 开放知识图谱社区。
|
3月前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
102 4
|
19天前
|
自然语言处理 测试技术
社区供稿 | 引入隐式模型融合技术,中山大学团队推出 FuseChat-3.0
在大语言模型(LLM)领域,结合多个模型的优势以提升单个模型的能力已成为一大趋势。然而,以往的模型融合方法例如 FuseLLM[1], FuseChat-1.0/2.0[2] 等存在词表对齐困难、效率低下等问题。
社区供稿 | 引入隐式模型融合技术,中山大学团队推出 FuseChat-3.0
|
1月前
|
存储 人工智能
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。
53 7
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
|
1月前
|
人工智能 PyTorch 算法框架/工具
StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架
StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。
58 7
StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架
|
2月前
|
人工智能 并行计算 PyTorch
ViewExtrapolator:南洋理工联合UCAS团队推出的新型视图合成方法
南洋理工大学与UCAS团队联合推出了一种新型视图合成方法——ViewExtrapolator。该方法基于稳定视频扩散(SVD)技术,能够在不进行微调的情况下,高效生成超出训练视图范围的新视角图像,显著减少伪影,提升视觉质量。ViewExtrapolator具有广泛的应用前景,尤其在虚拟现实、3D内容创建、电影制作等领域。
44 1
ViewExtrapolator:南洋理工联合UCAS团队推出的新型视图合成方法
|
5月前
|
人工智能 安全 搜索推荐
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
90 1
|
8月前
|
测试技术
华人团队推出视频扩展模型MOTIA
华人团队推出视频扩展模型MOTIA,通过智能算法扩展视频内容,适应不同设备和场景。该模型分为输入特定适应和模式感知扩展两阶段,有效保持视频帧内帧间一致性,提升扩展质量。在DAVIS和YouTube-VOS基准上超越现有先进方法,且无需大量任务调整,降低创作者的时间成本。然而,源视频信息不足或模式不明显时,MOTIA性能受限,且对计算资源要求较高。
143 2
华人团队推出视频扩展模型MOTIA
|
8月前
|
人工智能 自然语言处理
浙大联合微软等提出全新视频编辑统一框架UniEdit
【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit
69 2
浙大联合微软等提出全新视频编辑统一框架UniEdit

热门文章

最新文章

下一篇
开通oss服务