ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放

01.引言

GPT-4o 展现出的突破性图像生成能力已引发广泛关注。然而开源模型要实现同等能力仍需持续探索。虽然当前开源图像数据集的训练效果尚难以对标 GPT-4o,但当我们将 GPT-4o 的图像生成能力分解为“图像风格迁移”、“图像局部编辑”等原子化能力时,开源模型已具备这些原子能力。基于此,魔搭社区 DiffSynth-Studio 团队正式启动 ImagePulse(图律脉动)数据集建设项目,构建原子能力数据集,致力于为下一代图像理解与生成模型构建关键的数据基础。

开源项目链接:

https://github.com/modelscope/ImagePulse

目前,ImagePulse 开源了四个原子能力数据集,以及对应的数据集构建脚本。

 

02.原子能力数据集

1、修改、添加、移除

对图像中的特定区域中的物体进行修改、添加、移除,用于训练模型的图像编辑能力。

数据集链接:

https://www.modelscope.cn/datasets/DiffSynth-Studio/ImagePulse-ChangeAddRemove

图律脉动数据集-修改、添加、移除

图1

编辑

图2

编辑

编辑区域

编辑

编辑指令

Remove the mustache and beard, change the white shirt to a blue turtleneck sweater, and remove the glass of milk.

反向编辑指令

Add a mustache and beard, change the blue turtleneck sweater to a white shirt, and add a glass of milk.

2、放大、缩小

对图像中的区域进行聚焦放大,用于训练模型的超分辨率和扩图能力。

图律脉动数据集-放大、缩小

图1

编辑

图2

编辑

放大区域

编辑

编辑指令

Zoom in to focus on the headband.

反向编辑指令

Zoom out to show the full view of the anime girl.

3、风格迁移

在保留图像结构的前提下更换图像的风格,用于训练模型的风格迁移能力。

图律脉动数据集-风格迁移

图1

编辑

图2

编辑

编辑指令

transform the image into a cartoon style with vibrant colors and a confident expression.

反向编辑指令

transform the image into a realistic portrait with a serious expression and subtle lighting.

4、人脸保持

在保证人脸特征不变的情况下对任务动作、神态等进行随机修改,用于训练模型的人脸保持能力。

图律脉动数据集-人脸保持

图1

编辑

图2

编辑

编辑指令

Add a nighttime street scene with bokeh lights in the background.

反向编辑指令

Remove the nighttime street scene and bokeh lights from the background.

03.运行数据集生成

用户可自行运行数据集生成脚本,生成更多训练数据,我们也期待开源社区的开发者们能够共同参与到 ImagePulse 数据集的建设中,一起构建下一代图像生成模型。

git clone https://github.com/modelscope/ImagePulse.git
cd ImagePulse
pip install -r requirements.txt

image.gif

 

python change_add_remove.py \
  --target_dir "data/dataset" \
  --cache_dir "data/cache" \
  --dashscope_api_key "sk-xxxxxxxxxxxxxxxx" \
  --qwenvl_model_id "qwen-vl-max" \
  --modelscope_access_token "xxxxxxxxxxxxxxx" \
  --modelscope_dataset_id "DiffSynth-Studio/ImagePulse-ChangeAddRemove" \
  --num_data 1000000 \
  --max_num_files_per_folder 1000

image.gif

-target_dir: 数据集存储路径
-cache_dir: 缓存路径
-dashscope_api_key: 百炼API Key,调用百炼 API 时需填入
-qwenvl_model_id: 百炼上 Qwen-VL 模型的 ID,调用百炼 API 时需填入
-modelscope_access_token: 魔搭社区访问令牌,上传数据集到魔搭社区时需填入
-modelscope_dataset_id: 魔搭社区数据集 ID,上传数据集到魔搭社区时需填入
-num_data: 数据样本总量
-max_num_files_per_folder: 每个打包文件中的文件数量

image.gif

04.致谢

ImagePulse 是基于众多开源技术实现的数据集建设项目,包括来自诸多开源模型和数据集的支持:

-DiffusionDB:

https://modelscope.cn/datasets/AI-ModelScope/diffusiondb

-CelebA-HQ-Face:

https://modelscope.cn/datasets/AI-ModelScope/celeb-a-hq_training_untransformed_faces

-FLUX:

https://modelscope.cn/models/black-forest-labs/FLUX.1-dev

-SDXL:

https://modelscope.cn/models/AI-ModelScope/stable-diffusion-xl-base-1.0

-IP-Adapter:

https://modelscope.cn/models/AI-ModelScope/IP-Adapter

-IP-Adapter-FLUX:

https://modelscope.cn/models/InstantX/FLUX.1-dev-IP-Adapter

-Qwen-VL:

https://modelscope.cn/models/Qwen/Qwen2.5-VL-72B-Instruct

-Inpaint-ControlNet:

https://modelscope.cn/models/alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Beta

-Upscaler-ControlNet:

https://modelscope.cn/models/jasperai/Flux.1-dev-Controlnet-Upscaler

-Union-ControlNet:

https://modelscope.cn/models/AI-ModelScope/controlnet-union-sdxl-1.0-promax

-InfiniteYou:

https://modelscope.cn/models/ByteDance/InfiniteYou

欢迎点击链接, 跳转GitHub为项目点⭐~

https://github.com/modelscope/ImagePulse

目录
相关文章
|
10天前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
111 17
|
29天前
|
机器学习/深度学习 人工智能 编解码
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
GPT-image-1是OpenAI推出的新一代多模态图像生成模型,通过API提供专业级图像生成与编辑能力,支持多种分辨率、格式和艺术风格定制。
173 10
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
|
5天前
|
人工智能 API 开发者
狂揽7.5k星!这款开源API网关彻底解放开发者:一键聚合GPT-4、Suno、Midjourney,还能在线充值!
New API 是一款基于 One API 二次开发的 AI 模型接口管理与分发系统,支持多种大模型(如 GPT-4、Suno、Midjourney 等)统一封装为 OpenAI 格式接口调用。其核心功能包括多模型统一网关、企业级权限管控、“推理力度”分级、无魔法访问全球 AI 服务、灵活计费体系及开发者友好设计。技术架构采用 Golang + Gin 框架,支持高并发低延迟,适用于企业内部 AI 中台、多模型 SaaS 平台、学术研究协作及个人开发者工具等场景。项目开源地址:https://github.com/kingbug/new-api。
147 6
|
1月前
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
131 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
1月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
105 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
3月前
|
人工智能 算法 测试技术
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
OctoTools 是斯坦福大学推出的开源智能体框架,通过标准化工具卡片和自动化工具集优化算法,显著提升复杂推理任务的解决效率,支持多领域应用。
136 3
OctoTools:斯坦福开源AI推理神器!16项测试准确率碾压GPT-4o,一键搞定复杂任务
|
3月前
|
机器学习/深度学习 人工智能 编解码
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
164 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
382 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
4月前
|
人工智能 Python
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。
641 21
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
|
4月前
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
486 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行

热门文章

最新文章