小红书开源发布 FireRed-Image-Edit 1.0：高质量训练数据，性能屠榜三项核心评测-阿里云开发者社区

小红书开源发布 FireRed-Image-Edit 1.0：高质量训练数据，性能屠榜三项核心评测

2026-02-24 1477

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2月14日，小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案，风格迁移（4.97分）等维度甚至优于Nano-Banana、Seedream4.0等闭源模型，支持文本保留、老照片修复、多图虚拟试衣等能力。

2月14日，小红书 FireRedTeam 正式开源发布了 FireRed-Image-Edit-1.0 。这是一款通用图像编辑模型，在多个主流基准测试中全面超越现有开源方案，甚至在部分维度上逼近甚至超过Nano-Banana、Seedream4.0等闭源商业模型。

开源链接：

GitHub: https://github.com/FireRedTeam/FireRed-Image-Edit

ModelScope: https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.0

在线 Demo: https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0

Technical Report: https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf

模型特点

FireRed-Image-Edit-1.0 支持以下几大核心能力：

强大的编辑性能：在指令遵循准确性、图像质量与视觉一致性方面表现突出。通过多阶段训练与一致性约束机制，显著提升复杂指令下的稳定性与细节保真度，在多项基准评测中达到开源领先水平。
原生编辑能力：基于文生图基础模型直接构建编辑能力，使生成与编辑在同一框架下完成，既能精准修改局部内容，又能保持整体风格与结构稳定。
文本样式保留：依托高质量数据过滤与指令增强策略，在文本替换、重写场景中可高保真保留字体样式、排版结构与视觉细节，效果可对标闭源方案。
照片修复：支持老照片去噪、增强与细节恢复，在提升清晰度的同时保持人物身份与画面风格一致。
多图编辑：支持多图条件输入与多步骤编辑流程，可实现如虚拟试穿等复杂场景的灵活编辑。

技术亮点

FireRed-Image-Edit 从16亿原始样本中通过严苛的两阶段过滤精炼出超1亿高质量数据，并巧妙维持了生成与编辑任务1:1的比例，确保模型在习得编辑技能的同时保留强大的生成先验。其核心在于三位一体的数据生产引擎，通过指令合成、结构化控制及模型无关模板等策略精准填补长尾场景空白，再辅以多级Caption引擎生成从精细描述到口语化的多元指令。结合基于VLM的自动化质量评价与硬负例挖掘机制，实现了语义对齐度与视觉保真度的极致优化，为模型达到SOTA性能奠定了坚实的资源基石。

FireRed-Image-Edit 以双流多模态扩散 Transformer（MM-DiT）为核心，将文本嵌入、VAE 图像潜变量与参考图特征拼接为统一序列，实现跨模态双向交互与统一建模。通过 3D Unified RoPE，使参考图与目标图共享空间坐标、区分时间维度，强化结构对齐与稳定编辑能力。

训练则采用预训练→持续预训练→SFT→DPO→DiffusionNFT 的多阶段策略，结合多条件分桶采样与指令随机重排提升泛化性，并引入动态权重的一致性/身份损失，保障人物与关键区域特征稳定。在参数规模可控前提下，实现高指令遵循、高保真与高可控的复杂图像编辑。

模型评测效果

基准测试

FireRed-Image-Edit 在三个主流基准测试上都成功获得了开源模型的新 SOTA。

ImgEdit 基准测试

在 ImgEdit 上，FireRed-Image-Edit 的综合得分达到 4.56，不仅在开源模型中表现最佳，还超越了 Nano-Banana（4.29）、Seedream4.0（4.30）、Seedream4.5（4.32）等多个闭源商业模型。

具体维度上，它在 Add（4.55）、Adjust（4.66）、Extract（4.34）、BG（4.45）、Style（4.97）等多个类别上均拿到开源最佳或整体最佳成绩，其中风格转换（Style）以 4.97 的得分刷新了所有模型的记录。

GEdit 基准测试

在 GEdit 官方公开基准上，FireRed-Image-Edit 在开源模型中同样位列第一，英文综合得分 G_O 达到 7.943，中文综合得分达到 7.887。值得注意的是，这个成绩不仅大幅领先其他开源模型，甚至超过了 Nano-Banana（7.291/7.399）和 Seedream4.0（7.701/7.692）等闭源方案。

REDEdit-Bench 自研基准

团队还提出了自己的基准 REDEdit-Bench，收集了超过 3000 张互联网图片，经过专家精心筛选，构建了 1673 个中英双语编辑对，覆盖 15 个类别。在这个更加多样化和贴近真实使用场景的基准上，FireRed-Image-Edit 在开源模型中依然保持领先，整体得分 4.26（中文场景），在替换、合成、文本编辑等多个维度上拿到最高分。

案例效果

创作场景

文字渲染

虚拟试衣

模型实战

模型部署&推理

环境准备

首先安装最新版 diffusers：

pip install git+https://github.com/huggingface/diffusers
git clone https://github.com/FireRedTeam/FireRed-Image-Edit.git
cd FireRed-Image-Edit

基本使用

运行以下命令即可完成图像编辑：

python inference.py \
    --input_image ./examples/edit_example.png \
    --prompt "在书本封面Python的下方，添加一行英文文字2nd Edition" \
    --output_image output_edit.png \
    --seed 43

Prompt 最佳实践

根据 FireRed-Image-Edit 模型特性和基准测试表现，以下是社区总结的适合该edit模型的使用技巧，帮助大家获得最佳编辑效果：

1. 指令具体、明确

模型对自然语言指令的理解能力很强，但越具体的指令效果越好。

❌ "把图片改好看一点"
✅ "将背景替换为蓝天白云的海边场景，保持人物不变"
✅ "在书本封面Python的下方，添加一行英文文字2nd Edition"

2. 善用中英双语

FireRed-Image-Edit 同时支持中文和英文指令，且中文场景表现同样出色。对于涉及中文文字编辑的场景，建议直接使用中文 prompt。对于通用编辑任务，中英文均可。

3. 风格转换是强项，大胆使用

FireRed-Image-Edit 在 Style 维度上的得分高达 4.97（ImgEdit），是所有模型中最高的。这意味着风格迁移类的任务（比如"将这张照片转成水彩画风格"、"转为赛博朋克风格"等）是它的绝对强项。

4. 文字编辑场景注意描述位置

在进行文字相关的编辑时，明确描述文字应该出现的位置关系，比如"在xxx的下方"、"在logo右侧"，可以显著提高编辑的准确性。

5. 多图编辑时确保图片清晰

在虚拟试穿等多图编辑场景中，输入图片的质量直接影响输出效果。建议使用高分辨率、光线充足的图片。

6. 复杂编辑可以分步进行

对于需要同时进行多个修改的复杂编辑，建议拆分为多个简单步骤，逐步完成。比如先替换背景，再调整颜色，最后添加文字。

官方表示后续还将发布以下内容，敬请期待 👇

REDEdit-Bench 数据集：完整的评测基准数据集，方便社区复现和进一步研究。
FireRed-Image-Edit-1.0-Distilled：蒸馏版本，支持更少推理步数的快速生成，大幅降低推理成本。
FireRed-Image：基础文生图模型，补全从生成到编辑的完整链路。

点击即可跳转模型体验链接

https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0