小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测

简介: 2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。

2月14日,小红书 FireRedTeam 正式开源发布了 FireRed-Image-Edit-1.0 。这是一款通用图像编辑模型,在多个主流基准测试中全面超越现有开源方案,甚至在部分维度上逼近甚至超过Nano-Banana、Seedream4.0等闭源商业模型。


开源链接:

GitHub: https://github.com/FireRedTeam/FireRed-Image-Edit

ModelScope: https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.0

在线 Demo: https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0

Technical Report: https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf


模型特点

FireRed-Image-Edit-1.0 支持以下几大核心能力:

  • 强大的编辑性能:在指令遵循准确性、图像质量与视觉一致性方面表现突出。通过多阶段训练与一致性约束机制,显著提升复杂指令下的稳定性与细节保真度,在多项基准评测中达到开源领先水平。
  • 原生编辑能力:基于文生图基础模型直接构建编辑能力,使生成与编辑在同一框架下完成,既能精准修改局部内容,又能保持整体风格与结构稳定。
  • 文本样式保留:依托高质量数据过滤与指令增强策略,在文本替换、重写场景中可高保真保留字体样式、排版结构与视觉细节,效果可对标闭源方案。
  • 照片修复:支持老照片去噪、增强与细节恢复,在提升清晰度的同时保持人物身份与画面风格一致。
  • 多图编辑:支持多图条件输入与多步骤编辑流程,可实现如虚拟试穿等复杂场景的灵活编辑。

技术亮点

FireRed-Image-Edit 从16亿原始样本中通过严苛的两阶段过滤精炼出超1亿高质量数据,并巧妙维持了生成与编辑任务1:1的比例,确保模型在习得编辑技能的同时保留强大的生成先验。其核心在于三位一体的数据生产引擎,通过指令合成、结构化控制及模型无关模板等策略精准填补长尾场景空白,再辅以多级Caption引擎生成从精细描述到口语化的多元指令。结合基于VLM的自动化质量评价与硬负例挖掘机制,实现了语义对齐度与视觉保真度的极致优化,为模型达到SOTA性能奠定了坚实的资源基石。




FireRed-Image-Edit 以双流多模态扩散 Transformer(MM-DiT)为核心,将文本嵌入、VAE 图像潜变量与参考图特征拼接为统一序列,实现跨模态双向交互与统一建模。通过 3D Unified RoPE,使参考图与目标图共享空间坐标、区分时间维度,强化结构对齐与稳定编辑能力。


训练则采用预训练→持续预训练→SFT→DPO→DiffusionNFT 的多阶段策略,结合多条件分桶采样与指令随机重排提升泛化性,并引入动态权重的一致性/身份损失,保障人物与关键区域特征稳定。在参数规模可控前提下,实现高指令遵循、高保真与高可控的复杂图像编辑。



模型评测效果

基准测试

FireRed-Image-Edit 在三个主流基准测试上都成功获得了开源模型的新 SOTA。



ImgEdit 基准测试

在 ImgEdit 上,FireRed-Image-Edit 的综合得分达到 4.56,不仅在开源模型中表现最佳,还超越了 Nano-Banana(4.29)、Seedream4.0(4.30)、Seedream4.5(4.32)等多个闭源商业模型。

具体维度上,它在 Add(4.55)、Adjust(4.66)、Extract(4.34)、BG(4.45)、Style(4.97)等多个类别上均拿到开源最佳或整体最佳成绩,其中风格转换(Style)以 4.97 的得分刷新了所有模型的记录。


GEdit 基准测试

在 GEdit 官方公开基准上,FireRed-Image-Edit 在开源模型中同样位列第一,英文综合得分 G_O 达到 7.943,中文综合得分达到 7.887。值得注意的是,这个成绩不仅大幅领先其他开源模型,甚至超过了 Nano-Banana(7.291/7.399)和 Seedream4.0(7.701/7.692)等闭源方案。


REDEdit-Bench 自研基准

团队还提出了自己的基准 REDEdit-Bench,收集了超过 3000 张互联网图片,经过专家精心筛选,构建了 1673 个中英双语编辑对,覆盖 15 个类别。在这个更加多样化和贴近真实使用场景的基准上,FireRed-Image-Edit 在开源模型中依然保持领先,整体得分 4.26(中文场景),在替换、合成、文本编辑等多个维度上拿到最高分。


案例效果



创作场景


文字渲染



虚拟试衣



模型实战

模型部署&推理

环境准备

首先安装最新版 diffusers:

pip install git+https://github.com/huggingface/diffusers
git clone https://github.com/FireRedTeam/FireRed-Image-Edit.git
cd FireRed-Image-Edit

基本使用

运行以下命令即可完成图像编辑:

python inference.py \
    --input_image ./examples/edit_example.png \
    --prompt "在书本封面Python的下方,添加一行英文文字2nd Edition" \
    --output_image output_edit.png \
    --seed 43

Prompt 最佳实践

根据 FireRed-Image-Edit 模型特性和基准测试表现,以下是社区总结的适合该edit模型的使用技巧,帮助大家获得最佳编辑效果:

1. 指令具体、明确

模型对自然语言指令的理解能力很强,但越具体的指令效果越好。

  • ❌ "把图片改好看一点"
  • ✅ "将背景替换为蓝天白云的海边场景,保持人物不变"
  • ✅ "在书本封面Python的下方,添加一行英文文字2nd Edition"

2. 善用中英双语

FireRed-Image-Edit 同时支持中文和英文指令,且中文场景表现同样出色。对于涉及中文文字编辑的场景,建议直接使用中文 prompt。对于通用编辑任务,中英文均可。

3. 风格转换是强项,大胆使用

FireRed-Image-Edit 在 Style 维度上的得分高达 4.97(ImgEdit),是所有模型中最高的。这意味着风格迁移类的任务(比如"将这张照片转成水彩画风格"、"转为赛博朋克风格"等)是它的绝对强项。

4. 文字编辑场景注意描述位置

在进行文字相关的编辑时,明确描述文字应该出现的位置关系,比如"在xxx的下方"、"在logo右侧",可以显著提高编辑的准确性。

5. 多图编辑时确保图片清晰

在虚拟试穿等多图编辑场景中,输入图片的质量直接影响输出效果。建议使用高分辨率、光线充足的图片。

6. 复杂编辑可以分步进行

对于需要同时进行多个修改的复杂编辑,建议拆分为多个简单步骤,逐步完成。比如先替换背景,再调整颜色,最后添加文字。

官方表示后续还将发布以下内容,敬请期待 👇

  • REDEdit-Bench 数据集:完整的评测基准数据集,方便社区复现和进一步研究。
  • FireRed-Image-Edit-1.0-Distilled:蒸馏版本,支持更少推理步数的快速生成,大幅降低推理成本。
  • FireRed-Image:基础文生图模型,补全从生成到编辑的完整链路。


点击即可跳转模型体验链接

https://modelscope.cn/studios/FireRedTeam/FireRed-Image-Edit-1.0


目录
相关文章
|
28天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
37393 150
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
10天前
|
人工智能 自然语言处理 监控
OpenClaw skills重构量化交易逻辑:部署+AI全自动炒股指南(2026终极版)
2026年,AI Agent领域最震撼的突破来自OpenClaw(原Clawdbot)——这个能自主规划、执行任务的智能体,用50美元启动资金创造了48小时滚雪球至2980美元的奇迹,收益率高达5860%。其核心逻辑堪称教科书级:每10分钟扫描Polymarket近千个预测市场,借助Claude API深度推理,交叉验证NOAA天气数据、体育伤病报告、加密货币链上情绪等多维度信息,捕捉8%以上的定价偏差,再通过凯利准则将单仓位严格控制在总资金6%以内,实现低风险高频套利。
4639 34
|
6天前
|
存储 人工智能 负载均衡
阿里云OpenClaw多Agent实战宝典:从极速部署到AI团队搭建,一个人=一支高效军团
在AI自动化时代,单一Agent的“全能模式”早已无法满足复杂任务需求——记忆臃肿导致响应迟缓、上下文污染引发逻辑冲突、无关信息加载造成Token浪费,这些痛点让OpenClaw的潜力大打折扣。而多Agent架构的出现,彻底改变了这一现状:通过“单Gateway+多分身”模式,让一个Bot在不同场景下切换独立“大脑”,如同组建一支分工明确的AI团队,实现创意、写作、编码、数据分析等任务的高效协同。
1278 22
|
23天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
8385 24
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
22天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
5526 12
|
5天前
|
人工智能 JavaScript Linux
别再花钱买云服务器了!OpenClaw 本地部署保姆级教程,10分钟拥有私人AI助理(附阿里云简单部署流程)
2026年,AI私人助理已从“高端配置”变成“日常刚需”,而OpenClaw(原Clawdbot,曾用名Moltbot)作为开源界的“黑马”,凭借自然语言驱动、多技能扩展、零门槛上手的核心优势,成为无数人打造私人AI助理的首选——它无需复杂代码基础,无需高价云服务器,只要你有一台普通电脑(Windows、Mac、Linux均可),跟着步骤操作,10分钟就能完成本地部署,同时也支持阿里云简单部署,兼顾“零成本本地使用”与“云端稳定托管”双重需求,彻底打破“AI助理必花钱”的误区。
1185 5
|
8天前
|
人工智能 JavaScript API
Windows系统OpenClaw保姆级部署指南:本地+云端双方案,零技术基础也能玩转AI助手
在AI办公自动化全面普及的2026年,OpenClaw(原Clawdbot、Moltbot)凭借“自然语言指令操控、多任务自动化执行、多工具无缝集成”的核心优势,成为个人与轻量办公群体打造专属AI助手的首选。它不仅能通过聊天互动响应需求,更具备“动手”和“跑腿”的硬核能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可灵活接入Qwen、OpenAI等云端API,或利用本地GPU运行模型,真正实现“聊天框里办大事”。
1123 6

热门文章

最新文章