ACE：阿里通义实验室推出的全能图像生成和编辑模型

2024-11-28 112

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： ACE是阿里巴巴通义实验室推出的全能图像生成和编辑模型，基于扩散变换器，支持多模态输入和多任务处理。该模型通过长上下文条件单元（LCU）和统一条件格式，能够理解和执行自然语言指令，实现图像生成、编辑和多轮交互等复杂任务，显著提升视觉内容创作的效率和灵活性。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

模型类型：全能图像生成和编辑模型
核心技术：长上下文条件单元（LCU）和基于Transformer的扩散模型
应用领域：艺术创作、媒体娱乐、广告营销、教育培训、电子商务

正文

公众号: 蚝油菜花 - ACE

ACE（All-round Creator and Editor）是阿里巴巴集团Tongyi Lab推出的基于扩散变换器的全能图像生成和编辑模型。该模型通过引入长上下文条件单元（LCU）和统一条件格式，能够理解和执行自然语言指令，实现广泛的视觉生成任务。

ACE模型支持多模态输入，能够处理包括图像生成、编辑和多轮交互在内的复杂任务，提供一个统一的解决方案，显著提高视觉内容创作的效率和灵活性。

长上下文条件单元（LCU）：引入LCU，一种统一的条件格式，能将历史信息和当前的文本指令结合起来，更好地理解用户的请求并生成期望的图像。
基于Transformer的扩散模型：构建基于Transformer的扩散模型，模型用LCU作为输入，联合训练各种生成和编辑任务，提高模型的多任务处理能力。
条件标记化（Condition Tokenizing）：模型将文本指令和视觉信息（如图像和掩码）分别编码成序列，并合并处理，实现多模态信息的对齐。
图像指示嵌入（Image Indicator Embedding）：为确保文本指令中提到的图像顺序与CU中的图像序列相匹配，用预定义的文本标记指示图像顺序。
长上下文注意力块（Long-context Attention Block）：模块基于时间步嵌入（T-Emb）和3D旋转位置编码（RoPE）区分不同的空间和帧级图像嵌入，确保在自注意力和交叉注意力层中，文本嵌入和图像嵌入能逐帧对齐。

🥦 微信公众号｜搜一搜：蚝油菜花 🥦