GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作,解决了复杂场景生成问题,显著提高了视频生成的准确性和文本对齐度。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 任务分解:将复杂的视频生成任务分解为多个子任务,每个子任务由专门的代理处理。
  2. 迭代循环:通过设计、生成和重新设计三个阶段的迭代循环,逐步优化视频内容。
  3. 多代理协作:多个专业化的代理协作,确保视频生成的准确性和文本对齐度。

正文

GenMAC 是什么

公众号: 蚝油菜花 - GenMAC

GenMAC是由香港大学、清华大学和微软研究院联合推出的多代理协作框架,专门用于解决文本到视频生成中的复杂场景生成问题。该框架通过将任务分解为设计、生成和重新设计三个阶段,并在生成与重新设计之间建立迭代循环,逐步验证和优化视频内容。

在重新设计阶段,框架进一步细分为验证、建议、修正和输出结构化四个子任务,由专门的代理顺序执行。通过自适应自路由机制,选择适合当前场景的代理,实现更准确的视频生成。

GenMAC 的主要功能

  • 组合文本到视频生成:根据复杂的组合文本提示生成视频,处理多对象、属性绑定、时间动态和对象间交互的场景。
  • 迭代工作流程:通过设计、生成和重新设计三个阶段的迭代循环,逐步完善视频内容。
  • 多代理协作:使用多个专业化的多模态大型语言模型(MLLM)代理,每个代理负责处理特定的子任务,实现集体智能。
  • 任务分解:重新设计阶段被分解为验证、建议、修正和输出结构化四个子任务,由不同的代理顺序执行。
  • 自适应自路由机制:根据不同的生成场景,自适应地选择最适合的代理进行修正。
  • 提高场景准确性和文本对齐:通过多代理协作和迭代细化,提高视频场景的准确性和与文本提示的对齐度。

GenMAC 的技术原理

  • 任务分解与角色专业化:将复杂的视频生成任务分解为更简单的子任务,为每个子任务分配专门的代理,每个代理都有特定的角色和职责。
  • 迭代循环:在生成和重新设计阶段之间设置迭代循环,模型逐步验证和修正生成的视频,更好地符合文本提示。
  • 代理协作
    • 验证代理:检查视频内容与文本提示的对齐情况。
    • 建议代理:基于验证结果提出修正建议,选择适合的修正代理。
    • 修正代理:根据建议调整视频设计,如布局和指导比例。
    • 输出结构化代理:将修正结果转化为结构化格式,为下一次迭代生成提供输入。
  • 自适应自路由:根据不同的生成需求和场景,自适应地选择最适合的修正代理,处理一致性、时间动态和空间动态等问题。
  • 跨阶段信息流:在设计、生成和重新设计阶段之间,信息(如布局、指导比例和文本提示)不断更新和传递,实现更准确的视频生成。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
存储 人工智能 自然语言处理
社区供稿 | 开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE
OneKE 是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE 以开源形式贡献给 OpenKG 开放知识图谱社区。
|
2月前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
79 4
|
新零售 人工智能
阿里巴巴联合汉仪重磅推出五款人工智能字体:汉仪天真体、英雄体等
众所周知传统做字的人力成本非常之高,如果全靠人类设计师来完成,一套标准字库从设计到完成需要一年多的时间。
12695 0
|
2天前
|
存储 人工智能
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。
24 7
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
|
10天前
|
人工智能 JSON 数据管理
ShowUI:新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型
ShowUI是由新加坡国立大学Show Lab和微软联合推出的视觉-语言-行动模型,旨在提升图形用户界面(GUI)助手的效率。该模型通过UI引导的视觉令牌选择和交错视觉-语言-行动流,有效减少计算成本并提高训练效率。ShowUI在小规模高质量数据集上表现出色,展现出在GUI自动化领域的潜力。
39 4
ShowUI:新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型
|
6月前
|
机器学习/深度学习 人工智能 算法
清华、华为等提出iVideoGPT:专攻交互式世界模型
【6月更文挑战第6天】清华和华为团队联合推出iVideoGPT,这是一种创新的交互式世界模型,旨在解决视频生成模型的互动性和扩展性挑战。iVideoGPT采用可扩展的自回归变换器框架,整合多模态信号,通过预测标记序列提升智能体交互体验。模型利用压缩标记技术处理高维视觉数据,预训练于大量人类和机器人操控轨迹,适用于视频预测、视觉规划等任务,展现出与顶级方法相当的性能。尽管存在数据多样性、长视频处理和高分辨率视频预测等问题,iVideoGPT仍展现了在视觉机器人操控等领域的巨大潜力。[论文链接](https://arxiv.org/pdf/2405.15223)
64 1
|
5月前
|
人工智能
ACM最新论文戳破大公司开源谎言,GenAI时代到底如何定义开源模型
【7月更文挑战第2天】ACM论文揭示GenAI开源真相,指出开源模型常缺乏开放数据集、完整代码与功能,质疑大公司仅借开源名义吸引利益。论文倡导重新定义开源,提议全面评估框架、加强监管及教育,确保真开源,促进领域健康发展。[链接:https://dl.acm.org/doi/3630106.3659005]
86 16
|
7月前
|
测试技术
华人团队推出视频扩展模型MOTIA
华人团队推出视频扩展模型MOTIA,通过智能算法扩展视频内容,适应不同设备和场景。该模型分为输入特定适应和模式感知扩展两阶段,有效保持视频帧内帧间一致性,提升扩展质量。在DAVIS和YouTube-VOS基准上超越现有先进方法,且无需大量任务调整,降低创作者的时间成本。然而,源视频信息不足或模式不明显时,MOTIA性能受限,且对计算资源要求较高。
132 2
华人团队推出视频扩展模型MOTIA
|
7月前
|
人工智能 自然语言处理
浙大联合微软等提出全新视频编辑统一框架UniEdit
【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit
62 2
浙大联合微软等提出全新视频编辑统一框架UniEdit
|
存储 SQL Cloud Native
LlamaIndex 联合创始人下场揭秘:如何使用私有数据提升 LLM 的能力?
如何使用私有数据最大化发挥 LLM 的能力?LlamaIndex 可以解决这一问题。LlamaIndex 是一个简单、灵活、集中的接口,可用于连接外部数据和 LLMs。
490 0

热门文章

最新文章