StoryWeaver:故事可视化生成模型,快速生成故事绘本,支持处理单角色和多角色的故事可视化任务

简介: StoryWeaver 是厦门大学与网易伏羲联合推出的 AI 模型,通过知识图谱和角色定制技术,实现高质量的故事可视化。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:StoryWeaver 通过角色定制和知识图谱技术,生成与文本叙述相匹配的图像序列。
  2. 技术:采用 Character Graph 和知识增强空间引导技术,确保角色身份和语义对齐。
  3. 应用:广泛应用于教育、漫画创作、互动游戏、广告和电影预览等领域。

正文(附运行示例)

StoryWeaver 是什么

公众号: 蚝油菜花 - StoryWeaver

StoryWeaver 是由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室联合推出的 AI 模型。它通过知识增强的角色定制技术,实现高质量的故事可视化。StoryWeaver 利用新颖的知识图谱 Character Graph 来丰富地表示故事中的角色、属性和关系,并通过 Customization via Character Graph(CCG)和知识增强空间引导(KE-SG)技术,精确地注入角色语义,生成与文本叙述相匹配的图像序列。

该系统在保持角色身份和文本语义对齐方面表现出色,有效提升了故事可视化的准确性和生动性。

StoryWeaver 的主要功能

  1. 角色定制与可视化:根据文本叙述和角色图像生成一系列视觉化的故事图像,精确定制给定角色的形象。
  2. 语义对齐:系统能确保生成的图像序列与文本提示在语义上保持一致,即图像内容与文本描述相匹配。
  3. 知识图谱应用:系统能理解和表示故事中角色的详细属性和角色间的关系。
  4. 多角色互动:StoryWeaver 能处理多角色故事场景,保持每个角色的身份清晰,展现角色间的自然互动。
  5. 跨注意力分配:优化多角色故事中的注意力分配,避免身份混合问题。

StoryWeaver 的技术原理

  1. Character Graph (CG):构建一个知识图谱 CG,用对象节点(角色)、属性节点(与角色相关的属性)和事件(角色间的关系)组成,共同定义故事场景的核心要素。
  2. Customization via Character Graph (CCG):基于 CCG,将 CG 中的结构化知识转化为增强的场景描述,提高角色身份保持和事件语义对齐的一致性。
  3. 知识增强空间引导(KE-SG):引入知识编码器提取不同角色的特征,根据角色特征调整初始位置先验,修改错误的交叉注意力图,确保角色知识准确地关注故事场景中的相应区域。
  4. 注意力机制修改:基于修改注意力图增强与角色相关的区域,减少与角色无关区域的关注度,提高多角色故事的视觉质量。
  5. 统一框架:StoryWeaver 提供统一的框架,能同时处理单角色和多角色的故事可视化任务。

如何运行 StoryWeaver

1. 训练 StoryWeaver

使用以下 shell 脚本进行训练:

bash train.sh

2. 从 StoryWeaver 生成样本

使用以下 shell 脚本生成样本:

bash sample.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
弹性计算 安全 数据库
2024年阿里云优惠券领取及使用教程
2024年阿里云优惠券领取及使用教程
2699 0
|
开发工具 数据安全/隐私保护 git
如何提交代码到github
如何提交代码到github
23【办公软件】WPS2019打开时报错:安装Office自定义项,安装期间出错
左下角【开始】按钮,点击【运行】,在对话框输入【regedit】打开注册表
3033 0
|
5月前
|
自然语言处理 API 内存技术
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
通义千问Qwen3-LiveTranslate-Flash推出实时多模态同声传译,支持18种语言及多种方言,融合视觉信息增强理解,实现3秒超低延迟、高精度语音翻译,适用于复杂环境下的跨语言交流。
697 1
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
|
27天前
|
人工智能 搜索推荐
阿里 Wan2.7-Image 重磅发布:告别 AI 标准脸,用“活人感”与精准操控重塑图像生成
阿里巴巴发布全新图像生成与编辑模型Wan2.7-Image,官网:https://t.aliyun.com/U/fPVHqY 突破AI生图瓶颈:支持“活人感”虚拟捏脸、Hex色值精准调色、3K Token超长文本印刷级渲染,并具备交互式编辑与多主体一致性能力,实现从“抽卡式”到“工业级”可控创作。
832 1
|
机器学习/深度学习 PyTorch API
MindIE Torch快速上手
MindIE Torch 是一款高效的深度学习推理优化工具,支持 PyTorch 模型在 NPU 上的高性能部署。其核心特性包括:1) 子图与单算子混合执行,配合 torch_npu 实现高效推理;2) 支持 C++ 和 Python 编程语言,灵活适配不同开发需求;3) 兼容多种模式(TorchScript、ExportedProgram、torch.compile),覆盖广泛场景;4) 支持静态与动态 Shape 模型编译,满足多样化输入需求。通过简单易用的 API,开发者可快速完成模型加载、编译优化、推理执行及离线模型导出等全流程操作,显著提升开发效率与性能表现。
|
机器学习/深度学习 人工智能 自然语言处理
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。
3347 17
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
|
人工智能 开发者
【阅读十分钟,百分百成功】——通过大模型实现对客服回答的质量评估
本文章基于业务实践,总结有关客服质检场景的解决方案和处理经验,为相似场景提供可行的借鉴方法。
1833 121
|
编解码 人工智能 缓存
通义万相重磅升级,成功登顶VBench,阿里云百炼邀您第一时间体验
阿里云通义万相推出2.1视频生成模型,大幅提升复杂运动、物理规律遵循及艺术表现,在权威评测VBench中夺冠。新模型采用自研VAE和DiT架构,增强时空上下文建模,实现更稳定的大幅度肢体运动和多对象生成。通义万相支持中英文文字特效生成,满足广告设计、短视频等创作需求,并在阿里云百炼平台开放API调用,提供免费试用资源。
1706 0

热门文章

最新文章