ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放

简介: ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放

01.引言

GPT-4o 展现出的突破性图像生成能力已引发广泛关注。然而开源模型要实现同等能力仍需持续探索。虽然当前开源图像数据集的训练效果尚难以对标 GPT-4o,但当我们将 GPT-4o 的图像生成能力分解为“图像风格迁移”、“图像局部编辑”等原子化能力时,开源模型已具备这些原子能力。基于此,魔搭社区 DiffSynth-Studio 团队正式启动 ImagePulse(图律脉动)数据集建设项目,构建原子能力数据集,致力于为下一代图像理解与生成模型构建关键的数据基础。

开源项目链接:

https://github.com/modelscope/ImagePulse

目前,ImagePulse 开源了四个原子能力数据集,以及对应的数据集构建脚本。

 

02.原子能力数据集

1、修改、添加、移除

对图像中的特定区域中的物体进行修改、添加、移除,用于训练模型的图像编辑能力。

数据集链接:

https://www.modelscope.cn/datasets/DiffSynth-Studio/ImagePulse-ChangeAddRemove

图律脉动数据集-修改、添加、移除

图1

编辑

图2

编辑

编辑区域

编辑

编辑指令

Remove the mustache and beard, change the white shirt to a blue turtleneck sweater, and remove the glass of milk.

反向编辑指令

Add a mustache and beard, change the blue turtleneck sweater to a white shirt, and add a glass of milk.

2、放大、缩小

对图像中的区域进行聚焦放大,用于训练模型的超分辨率和扩图能力。

图律脉动数据集-放大、缩小

图1

编辑

图2

编辑

放大区域

编辑

编辑指令

Zoom in to focus on the headband.

反向编辑指令

Zoom out to show the full view of the anime girl.

3、风格迁移

在保留图像结构的前提下更换图像的风格,用于训练模型的风格迁移能力。

图律脉动数据集-风格迁移

图1

编辑

图2

编辑

编辑指令

transform the image into a cartoon style with vibrant colors and a confident expression.

反向编辑指令

transform the image into a realistic portrait with a serious expression and subtle lighting.

4、人脸保持

在保证人脸特征不变的情况下对任务动作、神态等进行随机修改,用于训练模型的人脸保持能力。

图律脉动数据集-人脸保持

图1

编辑

图2

编辑

编辑指令

Add a nighttime street scene with bokeh lights in the background.

反向编辑指令

Remove the nighttime street scene and bokeh lights from the background.

03.运行数据集生成

用户可自行运行数据集生成脚本,生成更多训练数据,我们也期待开源社区的开发者们能够共同参与到 ImagePulse 数据集的建设中,一起构建下一代图像生成模型。

git clone https://github.com/modelscope/ImagePulse.git
cd ImagePulse
pip install -r requirements.txt

image.gif

 

python change_add_remove.py \
  --target_dir "data/dataset" \
  --cache_dir "data/cache" \
  --dashscope_api_key "sk-xxxxxxxxxxxxxxxx" \
  --qwenvl_model_id "qwen-vl-max" \
  --modelscope_access_token "xxxxxxxxxxxxxxx" \
  --modelscope_dataset_id "DiffSynth-Studio/ImagePulse-ChangeAddRemove" \
  --num_data 1000000 \
  --max_num_files_per_folder 1000

image.gif

-target_dir: 数据集存储路径
-cache_dir: 缓存路径
-dashscope_api_key: 百炼API Key,调用百炼 API 时需填入
-qwenvl_model_id: 百炼上 Qwen-VL 模型的 ID,调用百炼 API 时需填入
-modelscope_access_token: 魔搭社区访问令牌,上传数据集到魔搭社区时需填入
-modelscope_dataset_id: 魔搭社区数据集 ID,上传数据集到魔搭社区时需填入
-num_data: 数据样本总量
-max_num_files_per_folder: 每个打包文件中的文件数量

image.gif

04.致谢

ImagePulse 是基于众多开源技术实现的数据集建设项目,包括来自诸多开源模型和数据集的支持:

-DiffusionDB:

https://modelscope.cn/datasets/AI-ModelScope/diffusiondb

-CelebA-HQ-Face:

https://modelscope.cn/datasets/AI-ModelScope/celeb-a-hq_training_untransformed_faces

-FLUX:

https://modelscope.cn/models/black-forest-labs/FLUX.1-dev

-SDXL:

https://modelscope.cn/models/AI-ModelScope/stable-diffusion-xl-base-1.0

-IP-Adapter:

https://modelscope.cn/models/AI-ModelScope/IP-Adapter

-IP-Adapter-FLUX:

https://modelscope.cn/models/InstantX/FLUX.1-dev-IP-Adapter

-Qwen-VL:

https://modelscope.cn/models/Qwen/Qwen2.5-VL-72B-Instruct

-Inpaint-ControlNet:

https://modelscope.cn/models/alimama-creative/FLUX.1-dev-Controlnet-Inpainting-Beta

-Upscaler-ControlNet:

https://modelscope.cn/models/jasperai/Flux.1-dev-Controlnet-Upscaler

-Union-ControlNet:

https://modelscope.cn/models/AI-ModelScope/controlnet-union-sdxl-1.0-promax

-InfiniteYou:

https://modelscope.cn/models/ByteDance/InfiniteYou

欢迎点击链接, 跳转GitHub为项目点⭐~

https://github.com/modelscope/ImagePulse

目录
相关文章
|
7月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
347 17
|
3月前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。
|
5月前
|
人工智能 数据挖掘 API
Kimi K2开源炸场,1万亿参数碾压GPT-4.1,成本仅Claude 4的1/5!
月之暗面开源的万亿参数大模型Kimi K2引发行业震动,48小时内即登顶OpenRouter API调用榜,GitHub项目激增200%。该模型在代码生成、Agent任务及中文创作上超越Claude 4,标志着中国大模型首次在三大核心能力上达到全球顶尖水平。
|
8月前
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
461 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
7月前
|
人工智能 API 开发者
狂揽7.5k星!这款开源API网关彻底解放开发者:一键聚合GPT-4、Suno、Midjourney,还能在线充值!
New API 是一款基于 One API 二次开发的 AI 模型接口管理与分发系统,支持多种大模型(如 GPT-4、Suno、Midjourney 等)统一封装为 OpenAI 格式接口调用。其核心功能包括多模型统一网关、企业级权限管控、“推理力度”分级、无魔法访问全球 AI 服务、灵活计费体系及开发者友好设计。技术架构采用 Golang + Gin 框架,支持高并发低延迟,适用于企业内部 AI 中台、多模型 SaaS 平台、学术研究协作及个人开发者工具等场景。项目开源地址:https://github.com/kingbug/new-api。
2125 6
|
8月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
626 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
1864 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
10月前
|
机器学习/深度学习 人工智能 编解码
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
387 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
|
11月前
|
人工智能 Python
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。
1696 21
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
|
11月前
|
人工智能 语音技术 iOS开发
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行
MiniCPM-o 2.6 是面壁智能开源的多模态大模型,支持视觉、语音和多模态直播,性能媲美GPT-4o,能够在端侧设备上高效运行。
909 10
MiniCPM-o 2.6:面壁智能开源多模态大模型,仅8B参数量就能媲美GPT-4o,支持实时交互,在ipad等终端设备上运行