DynamicControl:腾讯推出动态地条件控制图像生成框架,结合了多模态大语言模型的推理能力和文生图模型的生成能力

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: DynamicControl 是腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架,通过自适应选择不同条件,显著增强了图像生成的可控性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/eNYKPamGwEyK3NhstpNQ8g


🚀 快速阅读

  1. 功能:支持动态组合不同控制信号,自适应选择条件。
  2. 技术:集成多模态大语言模型,优化条件排序。
  3. 应用:增强图像生成的可控性,保持图像质量和文本对齐。

正文

DynamicControl 是什么

公众号: 蚝油菜花 - DynamicControl

DynamicControl 是腾讯优图联合南洋理工、浙大等研究机构推出的集成多模态大语言模型(MLLM)推理能力的文本生成图像(T2I)任务新框架。该框架通过自适应地选择不同条件,实现了动态多控制对齐,显著增强了图像生成的可控性,同时保持了图像质量和图像文本对齐。

DynamicControl 支持多种控制信号的动态组合,能根据条件的重要性和内部关系自适应选择不同数量和类型的条件,优化了生成更接近源图像的图像。这一创新框架解决了现有方法中处理多条件效率低下或使用固定数量条件的局限性,提供了一个更全面的方法来管理多种条件。

DynamicControl 的主要功能

  • 动态条件组合:支持不同控制信号的动态组合,自适应选择不同数量和类型的条件。
  • 条件评估器:集成多模态大型语言模型(MLLM)来构建高效的条件评估器,优化条件的排序。
  • 增强可控性:实验结果显示,DynamicControl 大大增强了可控性,不会牺牲图像质量或图像文本对齐。
  • 解决多条件问题:框架解决了现有方法中处理多条件效率低下或使用固定数量条件的局限性。

DynamicControl 的技术原理

  • 双循环控制器:为所有输入条件生成初始的真实分数排序,评估提取条件和输入条件之间的相似性。
  • 多模态大语言模型:构建高效的条件评估器,优化条件的最佳排序。
  • 多控制适配器:自适应地选择不同的条件,实现动态多控制对齐。
  • 动态条件选择:支持不同控制信号的动态组合,自适应选择不同数量和类型的条件。
  • 自适应机制:动态和多样化的控制条件在数量和类型上都没有冲突,提高模型的有效性和效率。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
17天前
|
机器学习/深度学习 人工智能 文字识别
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
k1视觉思考模型是kimi推出的k1系列强化学习AI模型,具备端到端图像理解和思维链技术,能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。
160 68
Kimi 上线视觉思考模型,K1 系列强化学习模型正式开放,无需借助外部 OCR 处理图像与文本进行思考并回答
|
10天前
|
机器学习/深度学习 存储 自然语言处理
RWKV-7:极先进的大模型架构,长文本能力极强
RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。
RWKV-7:极先进的大模型架构,长文本能力极强
|
24天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
65 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
2月前
|
人工智能
突破视频多模态大模型瓶颈!合成数据立大功,项目已开源
针对视频多模态大模型(LMMs)因缺乏高质量原始数据而发展受限的问题,研究人员开发了LLaVA-Video-178K数据集,包含178,510个视频,涵盖详细字幕、开放性问题回答和多项选择题。此数据集通过结合GPT-4o和人工标注,实现了广泛视频来源、动态视频选择、递归字幕生成及多样化任务设计。基于此数据集训练的LLaVA-Video模型,在视频字幕、问答等任务上表现优异,且已开源,助力视频LMM的研究与发展。
49 7
|
2月前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
44 6
|
3月前
|
编解码 人工智能 并行计算
阿里妈妈技术开源FLUX图像修复&蒸馏加速模型
本文介绍了阿里妈妈技术团队基于FLUX开发的Controlnet修复模型和蒸馏加速模型,填补了社区空白并提升了FLUX的实用性和效率。
|
4月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
4月前
|
自然语言处理 数据处理
情感分析的终极形态:全景式细粒度多模态对话情感分析基准PanoSent
【9月更文挑战第24天】PanoSent是一种全新的多模态对话情感分析框架,旨在全景式地提取和分析情感元素,包括情感六元组提取与情感翻转分析两大任务。此框架依托大规模、高质量的多模态数据集PanoSent,涵盖文本、图像、音频等多种模态及多种语言,适应不同应用场景。为解决这些任务,研究人员提出了Chain-of-Sentiment推理框架,结合多模态大语言模型Sentica,实现细粒度的情感分析。尽管PanoSent在情感分析任务上表现优异,但仍面临多模态数据处理和跨领域适用性的挑战。
88 2
|
4月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
96 10
|
6月前
|
数据采集 边缘计算 自然语言处理
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
【7月更文挑战第5天】谷歌研究者提出新方法,通过自然语言提示训练视觉模型,减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型,以对话理解视觉概念并自动生成标注,降低训练成本,提高效率。实验显示定义概念工作量减少90%,并在多种任务上超越现有技术。尽管有限制,但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)
35 1

热门文章

最新文章