DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制

简介: DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持多角色控制和精确布局控制,适用于漫画创作、个性化内容生成等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持定制化漫画生成,用户可根据文本提示和角色图像生成漫画。
  2. 技术:整合MLLM和扩散模型,通过掩码交叉注意力机制实现精确布局控制。
  3. 应用:适用于漫画创作、个性化内容生成、教育和培训等多个场景。

正文(附运行示例)

DiffSensei 是什么

公众号: 蚝油菜花 - DiffSensei

DiffSensei 是由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持对漫画中多角色外观和互动的精确控制。

通过掩码交叉注意力机制和MLLM适配器,DiffSensei 能够根据文本提示动态调整角色特征,包括表情、姿势和动作,生成具有连贯性和视觉吸引力的漫画面板。此外,DiffSensei 还引入了 MangaZero 数据集,支持多角色、多状态的漫画生成任务。

DiffSensei 的主要功能

  • 定制化漫画生成:根据用户提供的角色图像和文本提示生成漫画,支持用户对角色的外观、表情、动作进行定制。
  • 多角色控制:框架支持多角色场景的漫画生成,处理角色间的互动和布局。
  • 文本兼容的身份适配:基于MLLM,根据文本提示动态调整角色特征,让角色的表现与文本描述相匹配。
  • 精确布局控制:通过掩码交叉注意力机制,精确控制角色和对话的布局,无需直接像素传输。
  • 数据集支持:引入 MangaZero 数据集,支持多角色、多状态的漫画生成任务。

DiffSensei 的技术原理

  • 整合MLLM和扩散模型:结合MLLM作为文本兼容的身份适配器和基于扩散的图像生成器,生成定制化的漫画面板。
  • 掩码交叉注意力(Masked Cross-Attention):通过复制关键和值矩阵,在每个交叉注意力层中创建独立的角色交叉注意力层,实现角色布局的精确控制。
  • 对话布局编码(Dialog Layout Encoding):引入可训练的嵌入层表示对话布局,将对话嵌入与噪声潜在表示相结合,实现对话位置的编码。
  • MLLM作为特征适配器:MLLM接收源角色特征和面板标题作为输入,生成与文本兼容的目标角色特征,动态调整角色状态。
  • 多角色特征提取:使用CLIP和图像编码器提取局部图像特征和图像级特征,避免直接从参考图像编码细粒度空间特征。
  • 扩散损失和语言模型损失:在训练MLLM时,计算语言模型损失(LM Loss)约束输出格式,均方误差损失(MSE Loss)指导基于面板标题的目标角色特征,计算扩散损失确保编辑后的特征与图像生成器保持一致。

如何运行 DiffSensei

安装

# 创建一个新的Conda环境
conda create -n diffsensei python=3.11
conda activate diffsensei
# 安装Pytorch和Diffusers相关包
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c conda-forge diffusers transformers accelerate
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121
# 安装其他依赖
pip install -r requirements.txt
# 第三方库用于运行Gradio demo
pip install gradio-image-prompter

模型下载

Huggingface 下载 DiffSensei 模型,并将其放置在 checkpoints 文件夹中:

checkpoints
  |- diffsensei
    |- image_generator
      |- ...
    |- mllm
      |- ...

使用Gradio进行推理

CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio \
  --config_path configs/model/diffsensei.yaml \
  --inference_config_path configs/inference/diffsensei.yaml \
  --ckpt_path checkpoints/diffsensei

如果内存有限,可以选择不使用MLLM组件的版本:

CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio_wo_mllm \
  --config_path configs/model/diffsensei.yaml \
  --inference_config_path configs/inference/diffsensei.yaml \
  --ckpt_path checkpoints/diffsensei

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2371 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
5月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1911 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
5月前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
1424 3
AI智能体框架怎么选?7个主流工具详细对比解析
|
5月前
|
存储 消息中间件 人工智能
【05】AI辅助编程完整的安卓二次商业实战-消息页面媒体对象(Media Object)布局实战调整-按钮样式调整实践-优雅草伊凡
【05】AI辅助编程完整的安卓二次商业实战-消息页面媒体对象(Media Object)布局实战调整-按钮样式调整实践-优雅草伊凡
203 11
【05】AI辅助编程完整的安卓二次商业实战-消息页面媒体对象(Media Object)布局实战调整-按钮样式调整实践-优雅草伊凡
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
421 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
5月前
|
XML 存储 Java
【06】AI辅助编程完整的安卓二次商业实战-背景布局变更增加背景-二开发现页面跳转逻辑-替换剩余图标-优雅草卓伊凡
【06】AI辅助编程完整的安卓二次商业实战-背景布局变更增加背景-二开发现页面跳转逻辑-替换剩余图标-优雅草卓伊凡
160 3
【06】AI辅助编程完整的安卓二次商业实战-背景布局变更增加背景-二开发现页面跳转逻辑-替换剩余图标-优雅草卓伊凡
|
4月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
367 6
|
6月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
6月前
|
人工智能 前端开发 Java
构建能源领域的AI专家:一个多智能体框架的实践与思考
本文介绍了作者团队在能源领域构建多智能体(Multi-Agent)框架的实践经验。面对单智能体处理复杂任务时因“注意力发散”导致的效率低下问题,团队设计了一套集“规划-调度-执行-汇总”于一体的多智能体协作系统。
779 19

热门文章

最新文章