StoryWeaver:故事可视化生成模型,快速生成故事绘本,支持处理单角色和多角色的故事可视化任务

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: StoryWeaver 是厦门大学与网易伏羲联合推出的 AI 模型,通过知识图谱和角色定制技术,实现高质量的故事可视化。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:StoryWeaver 通过角色定制和知识图谱技术,生成与文本叙述相匹配的图像序列。
  2. 技术:采用 Character Graph 和知识增强空间引导技术,确保角色身份和语义对齐。
  3. 应用:广泛应用于教育、漫画创作、互动游戏、广告和电影预览等领域。

正文(附运行示例)

StoryWeaver 是什么

公众号: 蚝油菜花 - StoryWeaver

StoryWeaver 是由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室联合推出的 AI 模型。它通过知识增强的角色定制技术,实现高质量的故事可视化。StoryWeaver 利用新颖的知识图谱 Character Graph 来丰富地表示故事中的角色、属性和关系,并通过 Customization via Character Graph(CCG)和知识增强空间引导(KE-SG)技术,精确地注入角色语义,生成与文本叙述相匹配的图像序列。

该系统在保持角色身份和文本语义对齐方面表现出色,有效提升了故事可视化的准确性和生动性。

StoryWeaver 的主要功能

  1. 角色定制与可视化:根据文本叙述和角色图像生成一系列视觉化的故事图像,精确定制给定角色的形象。
  2. 语义对齐:系统能确保生成的图像序列与文本提示在语义上保持一致,即图像内容与文本描述相匹配。
  3. 知识图谱应用:系统能理解和表示故事中角色的详细属性和角色间的关系。
  4. 多角色互动:StoryWeaver 能处理多角色故事场景,保持每个角色的身份清晰,展现角色间的自然互动。
  5. 跨注意力分配:优化多角色故事中的注意力分配,避免身份混合问题。

StoryWeaver 的技术原理

  1. Character Graph (CG):构建一个知识图谱 CG,用对象节点(角色)、属性节点(与角色相关的属性)和事件(角色间的关系)组成,共同定义故事场景的核心要素。
  2. Customization via Character Graph (CCG):基于 CCG,将 CG 中的结构化知识转化为增强的场景描述,提高角色身份保持和事件语义对齐的一致性。
  3. 知识增强空间引导(KE-SG):引入知识编码器提取不同角色的特征,根据角色特征调整初始位置先验,修改错误的交叉注意力图,确保角色知识准确地关注故事场景中的相应区域。
  4. 注意力机制修改:基于修改注意力图增强与角色相关的区域,减少与角色无关区域的关注度,提高多角色故事的视觉质量。
  5. 统一框架:StoryWeaver 提供统一的框架,能同时处理单角色和多角色的故事可视化任务。

如何运行 StoryWeaver

1. 训练 StoryWeaver

使用以下 shell 脚本进行训练:

bash train.sh

2. 从 StoryWeaver 生成样本

使用以下 shell 脚本生成样本:

bash sample.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 自然语言处理 测试技术
AutoRAG:自动优化 RAG 管道工具,自动评估各种 RAG 模块组合,快速找到最优的 RAG 管道
AutoRAG 是一款自动优化 RAG(Retrieval-Augmented Generation)管道的工具,帮助用户找到最适合其数据和应用场景的最佳 RAG 管道。
437 12
AutoRAG:自动优化 RAG 管道工具,自动评估各种 RAG 模块组合,快速找到最优的 RAG 管道
|
8月前
|
传感器 人工智能 自动驾驶
OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景
OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。
395 13
OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景
|
8月前
|
人工智能 算法 测试技术
StockMixer:上海交大推出预测股票价格的 MLP 架构,通过捕捉指标、时间和股票间的复杂相关性,预测下一个交易日的收盘价
StockMixer 是上海交通大学推出的基于多层感知器的股票价格预测架构,通过指标、时间和股票混合实现高效预测。
490 11
StockMixer:上海交大推出预测股票价格的 MLP 架构,通过捕捉指标、时间和股票间的复杂相关性,预测下一个交易日的收盘价
|
8月前
|
数据采集 人工智能 自然语言处理
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。
2974 71
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
|
8月前
|
人工智能 测试技术
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。
432 10
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
|
8月前
|
人工智能 测试技术 异构计算
TangoFlux:高速生成高质量音频,仅用3.7秒生成长达30秒的音频,支持文本到音频转换
TangoFlux 是由英伟达与新加坡科技设计大学联合开发的文本到音频生成模型,能够在3.7秒内生成30秒的高质量音频,支持文本到音频的直接转换和用户偏好优化。
218 6
TangoFlux:高速生成高质量音频,仅用3.7秒生成长达30秒的音频,支持文本到音频转换
|
8月前
|
数据采集 传感器 人工智能
AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作
AgiBot World 是智元机器人开源的百万真机数据集,旨在推动具身智能的发展,覆盖家居、餐饮、工业等五大核心场景。
617 9
AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作
|
机器学习/深度学习 人工智能 并行计算
N卡和A卡的硬件架构比较与选择指南
N卡和A卡的硬件架构比较与选择指南
|
8月前
|
人工智能 JSON 安全
DeepSeek Engineer:集成 DeepSeek API 的开源 AI 编程助手,支持文件读取、编辑并生成结构化响应
DeepSeek Engineer 是一款开源AI编程助手,通过命令行界面处理用户对话并生成结构化JSON,支持文件操作和代码生成。
1216 6
DeepSeek Engineer:集成 DeepSeek API 的开源 AI 编程助手,支持文件读取、编辑并生成结构化响应
|
8月前
|
人工智能 搜索推荐 前端开发
MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索
MiniPerplx 是一款基于 Grok 2.0 模型的开源 AI 搜索引擎,支持网页、学术论文、YouTube 视频等多种内容搜索,提供代码解释、天气预报等功能。
272 17
MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索

热门文章

最新文章