小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测

简介: 2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。

2月14日,小红书 FireRedTeam 正式开源发布了 FireRed-Image-Edit-1.0 。这是一款通用图像编辑模型,在多个主流基准测试中全面超越现有开源方案,甚至在部分维度上逼近甚至超过Nano-Banana、Seedream4.0等闭源商业模型。


开源链接:

GitHub: https://github.com/FireRedTeam/FireRed-Image-Edit

ModelScope: https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.0

在线 Demo: https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0

Technical Report: https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf


模型特点

FireRed-Image-Edit-1.0 支持以下几大核心能力:

  • 强大的编辑性能:在指令遵循准确性、图像质量与视觉一致性方面表现突出。通过多阶段训练与一致性约束机制,显著提升复杂指令下的稳定性与细节保真度,在多项基准评测中达到开源领先水平。
  • 原生编辑能力:基于文生图基础模型直接构建编辑能力,使生成与编辑在同一框架下完成,既能精准修改局部内容,又能保持整体风格与结构稳定。
  • 文本样式保留:依托高质量数据过滤与指令增强策略,在文本替换、重写场景中可高保真保留字体样式、排版结构与视觉细节,效果可对标闭源方案。
  • 照片修复:支持老照片去噪、增强与细节恢复,在提升清晰度的同时保持人物身份与画面风格一致。
  • 多图编辑:支持多图条件输入与多步骤编辑流程,可实现如虚拟试穿等复杂场景的灵活编辑。

技术亮点

FireRed-Image-Edit 从16亿原始样本中通过严苛的两阶段过滤精炼出超1亿高质量数据,并巧妙维持了生成与编辑任务1:1的比例,确保模型在习得编辑技能的同时保留强大的生成先验。其核心在于三位一体的数据生产引擎,通过指令合成、结构化控制及模型无关模板等策略精准填补长尾场景空白,再辅以多级Caption引擎生成从精细描述到口语化的多元指令。结合基于VLM的自动化质量评价与硬负例挖掘机制,实现了语义对齐度与视觉保真度的极致优化,为模型达到SOTA性能奠定了坚实的资源基石。




FireRed-Image-Edit 以双流多模态扩散 Transformer(MM-DiT)为核心,将文本嵌入、VAE 图像潜变量与参考图特征拼接为统一序列,实现跨模态双向交互与统一建模。通过 3D Unified RoPE,使参考图与目标图共享空间坐标、区分时间维度,强化结构对齐与稳定编辑能力。


训练则采用预训练→持续预训练→SFT→DPO→DiffusionNFT 的多阶段策略,结合多条件分桶采样与指令随机重排提升泛化性,并引入动态权重的一致性/身份损失,保障人物与关键区域特征稳定。在参数规模可控前提下,实现高指令遵循、高保真与高可控的复杂图像编辑。



模型评测效果

基准测试

FireRed-Image-Edit 在三个主流基准测试上都成功获得了开源模型的新 SOTA。



ImgEdit 基准测试

在 ImgEdit 上,FireRed-Image-Edit 的综合得分达到 4.56,不仅在开源模型中表现最佳,还超越了 Nano-Banana(4.29)、Seedream4.0(4.30)、Seedream4.5(4.32)等多个闭源商业模型。

具体维度上,它在 Add(4.55)、Adjust(4.66)、Extract(4.34)、BG(4.45)、Style(4.97)等多个类别上均拿到开源最佳或整体最佳成绩,其中风格转换(Style)以 4.97 的得分刷新了所有模型的记录。


GEdit 基准测试

在 GEdit 官方公开基准上,FireRed-Image-Edit 在开源模型中同样位列第一,英文综合得分 G_O 达到 7.943,中文综合得分达到 7.887。值得注意的是,这个成绩不仅大幅领先其他开源模型,甚至超过了 Nano-Banana(7.291/7.399)和 Seedream4.0(7.701/7.692)等闭源方案。


REDEdit-Bench 自研基准

团队还提出了自己的基准 REDEdit-Bench,收集了超过 3000 张互联网图片,经过专家精心筛选,构建了 1673 个中英双语编辑对,覆盖 15 个类别。在这个更加多样化和贴近真实使用场景的基准上,FireRed-Image-Edit 在开源模型中依然保持领先,整体得分 4.26(中文场景),在替换、合成、文本编辑等多个维度上拿到最高分。


案例效果



创作场景


文字渲染



虚拟试衣



模型实战

模型部署&推理

环境准备

首先安装最新版 diffusers:

pip install git+https://github.com/huggingface/diffusers
git clone https://github.com/FireRedTeam/FireRed-Image-Edit.git
cd FireRed-Image-Edit

基本使用

运行以下命令即可完成图像编辑:

python inference.py \
    --input_image ./examples/edit_example.png \
    --prompt "在书本封面Python的下方,添加一行英文文字2nd Edition" \
    --output_image output_edit.png \
    --seed 43

Prompt 最佳实践

根据 FireRed-Image-Edit 模型特性和基准测试表现,以下是社区总结的适合该edit模型的使用技巧,帮助大家获得最佳编辑效果:

1. 指令具体、明确

模型对自然语言指令的理解能力很强,但越具体的指令效果越好。

  • ❌ "把图片改好看一点"
  • ✅ "将背景替换为蓝天白云的海边场景,保持人物不变"
  • ✅ "在书本封面Python的下方,添加一行英文文字2nd Edition"

2. 善用中英双语

FireRed-Image-Edit 同时支持中文和英文指令,且中文场景表现同样出色。对于涉及中文文字编辑的场景,建议直接使用中文 prompt。对于通用编辑任务,中英文均可。

3. 风格转换是强项,大胆使用

FireRed-Image-Edit 在 Style 维度上的得分高达 4.97(ImgEdit),是所有模型中最高的。这意味着风格迁移类的任务(比如"将这张照片转成水彩画风格"、"转为赛博朋克风格"等)是它的绝对强项。

4. 文字编辑场景注意描述位置

在进行文字相关的编辑时,明确描述文字应该出现的位置关系,比如"在xxx的下方"、"在logo右侧",可以显著提高编辑的准确性。

5. 多图编辑时确保图片清晰

在虚拟试穿等多图编辑场景中,输入图片的质量直接影响输出效果。建议使用高分辨率、光线充足的图片。

6. 复杂编辑可以分步进行

对于需要同时进行多个修改的复杂编辑,建议拆分为多个简单步骤,逐步完成。比如先替换背景,再调整颜色,最后添加文字。

官方表示后续还将发布以下内容,敬请期待 👇

  • REDEdit-Bench 数据集:完整的评测基准数据集,方便社区复现和进一步研究。
  • FireRed-Image-Edit-1.0-Distilled:蒸馏版本,支持更少推理步数的快速生成,大幅降低推理成本。
  • FireRed-Image:基础文生图模型,补全从生成到编辑的完整链路。


点击即可跳转模型体验链接

https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0


目录
相关文章
|
20天前
|
人工智能 算法 测试技术
Boss直聘开源Nanbeige4.1-3B:小模型全能新标杆
Boss直聘南北阁实验室发布Nanbeige4.1-3B:一款仅3B参数的“小而全”统一模型,首次在同规模中系统整合强推理、人类偏好对齐与深度搜索Agent能力,性能超越Qwen3-32B等大模型,已开源权重、技术报告及合成数据。
575 4
|
13天前
|
机器学习/深度学习 人工智能 文字识别
小红书开源FireRed-OCR,2B 参数登顶文档解析榜单
小红书FireRed团队开源的FireRed-OCR(仅20亿参数),在OmniDocBench v1.5端到端评测中以92.94%综合得分登顶,超越Gemini 3.0 Pro等大模型。专注解决文档解析中的“结构幻觉”问题,通过三阶段训练+格式约束强化学习,精准还原表格、公式、多栏等复杂结构。Apache 2.0协议,ModelScope开源,支持本地商用部署。(239字)
488 22
|
19天前
|
机器学习/深度学习 人工智能 编解码
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
353 4
|
23天前
|
人工智能 语音技术 云计算
书尖 AI 功能实测|阿里云 AI 技术加持,与喜马拉雅听书体验深度对比
在阿里云AI赋能下,书尖AI实测展现三大优势:1.2亿册全品类书库、双人互动式AI播客、2分钟极速提炼书籍精华,并依托阿里云TTS实现自然听书体验。相较喜马拉雅,其AI深度解读与定制化能力更胜一筹。(239字)
|
20天前
|
缓存 架构师 前端开发
MiniMax M2.5 开源,低成本Agent时代来了!社区Day0部署、工具调用、推理&提示词参数实战来啦!
2月13日,MiniMax发布M2.5大模型,108天内三连更!编程(SWE-Bench 80.2%)、搜索(BrowseComp 76.3%)、办公场景全面领先,开源权重已上线ModelScope,支持API调用、本地部署及工具调用。
1910 7
|
20天前
|
机器学习/深度学习 存储 自然语言处理
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
Ling-2.5-1T是蚂蚁集团inclusionAI推出的开源即时大模型(MIT协议),以“效率×效果”为核心:万亿参数、63B激活,首创混合线性注意力架构,支持百万token上下文;推理吞吐大幅提升,AIME任务仅需1/3 token即达前沿思考模型水平。ModelScope可下载。
405 4
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
|
1月前
|
存储 自然语言处理 搜索推荐
RAG 应用 —— 解锁大模型在各行业的落地场景与价值
RAG(检索增强生成)技术通过实时接入行业知识库,有效解决大模型知识过时、易幻觉、难适配等痛点,已在金融、医疗、教育、法律、电商五大领域规模化落地,显著提升准确性、合规性与响应效率,成为大模型行业应用的首选路径。(239字)
|
17天前
|
JSON 人工智能 Shell
用 4B 小模型做Code Agent的SubAgent?这个开源项目做到了
LocoOperator-4B 是 LocoreMind 推出的 4B 开源蒸馏模型,专为代码库探索优化:本地运行、零 API 成本,结构化工具调用(Read/Grep/Glob/Bash 等)准确率达 100%。它替代 Code Agent 中的子智能体,显著降本增效。(239 字)
347 18
|
1月前
|
存储 数据采集 人工智能
大模型微调常见术语解析:新手也能看懂的入门指南
本文通俗解析大模型微调核心术语:涵盖预训练模型、LoRA/QLoRA等轻量方法、学习率/批次大小等训练参数,以及过拟合、数据投毒等效果与安全要点,助新手快速入门并安全实践。(239字)
|
20天前
|
数据采集 机器学习/深度学习 人工智能
全球Top下载中文开源数据集更新|OpenCSG持续打造中文高质量数据集开源底座
OpenCSG正式发布Fineweb-Edu-Chinese V2.2数据集:覆盖预训练(1.5T tokens,质量分层)与SFT微调(143.7万条DeepSeek V3.2蒸馏问答对)全流程,严格事实锚定、支持溯源,是当前少有的高质量中文教育全栈数据解决方案。
146 13

热门文章

最新文章