AI故事随心绘:多主体ID保留,个性化生成

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 近期通义实验室提出了一种AnyStory的方法,旨在实现高质量的个性化文本到图像生成,支持单个和多个主体。

00.前言

近期通义实验室提出了一种AnyStory的方法,旨在实现高质量的个性化文本到图像生成,支持单个和多个主体。

01.在线体验

小程序链接:

https://modelscope.cn/studios/iic/AnyStory

该方法通过结合强大的通用图像编码器(如ReferenceNet)与CLIP视觉编码器来实现高保真度的主题特征编码,并利用一个解耦的实例感知主题路由器来精确预测并引导主题条件的注入,从而实现了灵活且可控的个性化生成。实验结果表明,该方法在保持主题细节、文本描述一致性以及多主题个性化方面表现出色。

此外,AnyStory还展示了任何故事框架的潜力,不仅限于人脸或特定类别物体的个性化,而且能够处理更广泛的主题,包括非人类实体和复杂背景下的场景生成。尽管存在一些限制,如无法为图像生成定制背景,但研究团队展望未来的研究方向,包括扩展对背景控制的能力和进一步减少复制粘贴效应,以提升生成图像的质量。

image.png

课代表划重点

  1. AnyStory提出了一种增强的主题表示编码器和解耦的实例感知路由模块,用于实现灵活可控的个性化图像生成。
  2. 相较于现有方法,AnyStory能够更准确地感知并预测主题的潜在条件区域,从而提高生成效果。
  3. AnyStory采用了CLIP视觉编码器和轻量级ReferenceNet来高保真度地对一般主题进行细节编码。
  4. 解耦的实例感知路由模块可以适应单或多主题的个性化生成需求。
  5. AnyStory通过使用路由主题的方法实现了一致性和多样性的平衡,并且不需要预先定义布局掩模。

02.模型结构

image.png

AnyStory遵循“encode-then-route”的传统条件生成范式,首先利用简化的ReferenceNet 结合 CLIP视觉编码器结合subject编码,然后采用解耦的instance-aware subject router来引导subject条件注入,训练过程分为2个阶段,subject Encoder训练阶段和Router训练阶段,为了简单起见,图中省略了文本分支。

模型效果:

image.png

image.png

image.png

点击链接,即可跳转体验~

https://modelscope.cn/studios/iic/AnyStory

目录
相关文章
|
1月前
|
人工智能 JSON 搜索推荐
当AI遇上VR:个性化内容创作的“新次元”革命
当AI遇上VR:个性化内容创作的“新次元”革命
98 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
教育领域的AI进展:智能辅导与个性化学习的技术革新与挑战
随着人工智能技术的发展,AI Agent在教育领域的应用日益广泛,特别是在智能辅导与个性化学习方面展现出巨大潜力。通过自然语言处理、机器学习和数据分析等技术,AI可模拟个性化辅导员,根据学生的学习情况提供定制化资源与实时反馈。未来,AI Agent将更注重情感分析与跨学科培养,成为教师的有力助手,推动教育公平与效率提升。然而,数据隐私、个体差异及教育资源不平衡等问题仍需克服,以实现更智能化、全面化的教育生态。
384 10
教育领域的AI进展:智能辅导与个性化学习的技术革新与挑战
|
3月前
|
人工智能 自然语言处理 搜索推荐
AI做广告,效果还真不差?聊聊怎么用AI搞定个性化广告创作
AI做广告,效果还真不差?聊聊怎么用AI搞定个性化广告创作
135 7
|
17天前
|
机器学习/深度学习 人工智能 搜索推荐
当AI遇上癌症:聊聊个性化治疗的新可能
当AI遇上癌症:聊聊个性化治疗的新可能
102 15
|
6月前
|
人工智能 编解码 物联网
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
347 4
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
|
6月前
|
人工智能 自然语言处理 算法
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
1947 67
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
|
8月前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
5523 119
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
5月前
|
人工智能 搜索推荐 程序员
程序员圈爆火,狂揽2.4K星!1秒内AI语音双向对话,支持个性化发音和多端适配,颠覆你的交互想象!
RealtimeVoiceChat是一款基于现代Web技术的开源实时语音对话工具,无需下载任何软件,打开浏览器即可与AI实时语音互动。其核心亮点包括零安装体验、超低延迟、高度可定制化以及跨平台兼容等特性。通过Web Speech API实现毫秒级语音合成,支持多参数精细控制(如音色、语速、音调等),并提供隐私安全保障。项目适用于无障碍辅助、语言学习、智能客服及内容创作等多个场景。开发者可快速集成GPT/Claude等大模型,扩展为企业级应用。此外,随着Web Speech API普及率提升,该项目有望推动语音交互在教育、智能家居等领域的发展
324 4
|
5月前
|
数据采集 人工智能 搜索推荐
从AI助手到个性化数字分身:WeClone & Second Me打造本地化、私有化的个性化AI代理系统
从AI助手到个性化数字分身:WeClone & Second Me打造本地化、私有化的个性化AI代理系统
326 23
|
7月前
|
人工智能 自然语言处理 监控
17.1K star!两小时就能训练出专属与自己的个性化小模型,这个开源项目让AI触手可及!
🔥「只需一张消费级显卡,2小时完成26M参数GPT训练!」 🌟「从零构建中文大模型的最佳实践指南」 🚀「兼容OpenAI API,轻松接入各类AI应用平台」
267 1

热门文章

最新文章