2月14日,小红书 FireRedTeam 正式开源发布了 FireRed-Image-Edit-1.0 。这是一款通用图像编辑模型,在多个主流基准测试中全面超越现有开源方案,甚至在部分维度上逼近甚至超过Nano-Banana、Seedream4.0等闭源商业模型。
开源链接:
GitHub: https://github.com/FireRedTeam/FireRed-Image-Edit
ModelScope: https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.0
在线 Demo: https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0
Technical Report: https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf
模型特点
FireRed-Image-Edit-1.0 支持以下几大核心能力:
- 强大的编辑性能:在指令遵循准确性、图像质量与视觉一致性方面表现突出。通过多阶段训练与一致性约束机制,显著提升复杂指令下的稳定性与细节保真度,在多项基准评测中达到开源领先水平。
- 原生编辑能力:基于文生图基础模型直接构建编辑能力,使生成与编辑在同一框架下完成,既能精准修改局部内容,又能保持整体风格与结构稳定。
- 文本样式保留:依托高质量数据过滤与指令增强策略,在文本替换、重写场景中可高保真保留字体样式、排版结构与视觉细节,效果可对标闭源方案。
- 照片修复:支持老照片去噪、增强与细节恢复,在提升清晰度的同时保持人物身份与画面风格一致。
- 多图编辑:支持多图条件输入与多步骤编辑流程,可实现如虚拟试穿等复杂场景的灵活编辑。
技术亮点
FireRed-Image-Edit 从16亿原始样本中通过严苛的两阶段过滤精炼出超1亿高质量数据,并巧妙维持了生成与编辑任务1:1的比例,确保模型在习得编辑技能的同时保留强大的生成先验。其核心在于三位一体的数据生产引擎,通过指令合成、结构化控制及模型无关模板等策略精准填补长尾场景空白,再辅以多级Caption引擎生成从精细描述到口语化的多元指令。结合基于VLM的自动化质量评价与硬负例挖掘机制,实现了语义对齐度与视觉保真度的极致优化,为模型达到SOTA性能奠定了坚实的资源基石。
FireRed-Image-Edit 以双流多模态扩散 Transformer(MM-DiT)为核心,将文本嵌入、VAE 图像潜变量与参考图特征拼接为统一序列,实现跨模态双向交互与统一建模。通过 3D Unified RoPE,使参考图与目标图共享空间坐标、区分时间维度,强化结构对齐与稳定编辑能力。
训练则采用预训练→持续预训练→SFT→DPO→DiffusionNFT 的多阶段策略,结合多条件分桶采样与指令随机重排提升泛化性,并引入动态权重的一致性/身份损失,保障人物与关键区域特征稳定。在参数规模可控前提下,实现高指令遵循、高保真与高可控的复杂图像编辑。
模型评测效果
基准测试
FireRed-Image-Edit 在三个主流基准测试上都成功获得了开源模型的新 SOTA。
ImgEdit 基准测试
在 ImgEdit 上,FireRed-Image-Edit 的综合得分达到 4.56,不仅在开源模型中表现最佳,还超越了 Nano-Banana(4.29)、Seedream4.0(4.30)、Seedream4.5(4.32)等多个闭源商业模型。
具体维度上,它在 Add(4.55)、Adjust(4.66)、Extract(4.34)、BG(4.45)、Style(4.97)等多个类别上均拿到开源最佳或整体最佳成绩,其中风格转换(Style)以 4.97 的得分刷新了所有模型的记录。
GEdit 基准测试
在 GEdit 官方公开基准上,FireRed-Image-Edit 在开源模型中同样位列第一,英文综合得分 G_O 达到 7.943,中文综合得分达到 7.887。值得注意的是,这个成绩不仅大幅领先其他开源模型,甚至超过了 Nano-Banana(7.291/7.399)和 Seedream4.0(7.701/7.692)等闭源方案。
REDEdit-Bench 自研基准
团队还提出了自己的基准 REDEdit-Bench,收集了超过 3000 张互联网图片,经过专家精心筛选,构建了 1673 个中英双语编辑对,覆盖 15 个类别。在这个更加多样化和贴近真实使用场景的基准上,FireRed-Image-Edit 在开源模型中依然保持领先,整体得分 4.26(中文场景),在替换、合成、文本编辑等多个维度上拿到最高分。
案例效果
创作场景
文字渲染
虚拟试衣
模型实战
模型部署&推理
环境准备
首先安装最新版 diffusers:
pip install git+https://github.com/huggingface/diffusers git clone https://github.com/FireRedTeam/FireRed-Image-Edit.git cd FireRed-Image-Edit
基本使用
运行以下命令即可完成图像编辑:
python inference.py \ --input_image ./examples/edit_example.png \ --prompt "在书本封面Python的下方,添加一行英文文字2nd Edition" \ --output_image output_edit.png \ --seed 43
Prompt 最佳实践
根据 FireRed-Image-Edit 模型特性和基准测试表现,以下是社区总结的适合该edit模型的使用技巧,帮助大家获得最佳编辑效果:
1. 指令具体、明确
模型对自然语言指令的理解能力很强,但越具体的指令效果越好。
- ❌ "把图片改好看一点"
- ✅ "将背景替换为蓝天白云的海边场景,保持人物不变"
- ✅ "在书本封面Python的下方,添加一行英文文字2nd Edition"
2. 善用中英双语
FireRed-Image-Edit 同时支持中文和英文指令,且中文场景表现同样出色。对于涉及中文文字编辑的场景,建议直接使用中文 prompt。对于通用编辑任务,中英文均可。
3. 风格转换是强项,大胆使用
FireRed-Image-Edit 在 Style 维度上的得分高达 4.97(ImgEdit),是所有模型中最高的。这意味着风格迁移类的任务(比如"将这张照片转成水彩画风格"、"转为赛博朋克风格"等)是它的绝对强项。
4. 文字编辑场景注意描述位置
在进行文字相关的编辑时,明确描述文字应该出现的位置关系,比如"在xxx的下方"、"在logo右侧",可以显著提高编辑的准确性。
5. 多图编辑时确保图片清晰
在虚拟试穿等多图编辑场景中,输入图片的质量直接影响输出效果。建议使用高分辨率、光线充足的图片。
6. 复杂编辑可以分步进行
对于需要同时进行多个修改的复杂编辑,建议拆分为多个简单步骤,逐步完成。比如先替换背景,再调整颜色,最后添加文字。
官方表示后续还将发布以下内容,敬请期待 👇
- REDEdit-Bench 数据集:完整的评测基准数据集,方便社区复现和进一步研究。
- FireRed-Image-Edit-1.0-Distilled:蒸馏版本,支持更少推理步数的快速生成,大幅降低推理成本。
- FireRed-Image:基础文生图模型,补全从生成到编辑的完整链路。
点击即可跳转模型体验链接
https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0