【量子位 2026年2月12日讯】春节P图不用再求人!小红书Super Intelligence Team正式发布开源图像编辑模型FireRed-Image-Edit,凭借精准的指令理解、稳定的文字编辑与强大的创意生成能力,在ImgEdit、GEdit等多项权威榜单中斩获SOTA,人工评估胜出率领先同类模型,让普通用户也能轻松实现专业级图像修改,彻底告别”改字崩版式、修图毁意境”的尴尬。
技术突破:重构图像编辑的精准与可控
FireRed-Image-Edit的脱颖而出,源于小红书团队在评测标准、数据引擎与训练机制上的全链路创新,构建起”精准理解-稳定输出-创意拓展”的核心能力闭环。
自定义评测基准:RedEdit Bench覆盖全场景需求
针对现有评测难以匹配真实用户需求的痛点,团队推出RedEdit Bench深度评测方案,涵盖15个子任务,不仅包含常规的画面增删改,更前瞻性纳入人像美化、低画质增强等高频实战场景。对比实验表明,该基准对编辑模型通用能力的评估精度远超ImgEdit和GEdit,后续将同步开源,为行业建立新的评估标准。
高效数据引擎:三路径解决样本稀缺难题
模型背后的图像编辑数据生产引擎,通过三条路径规模化产出高质量训练对:指令控制的专家模型合成、结构化控制(分割/关键点/深度等)的专家模型合成,以及3D/布局/文字等模型无关的模板化合成。针对长尾任务,采用”检查—补齐”的定向补数流程,配合三层级去重与十余种质量清洗算子,确保数据的指令遵循度与视觉自然度。
三阶段训练:兼顾精度与泛化能力
模型采用三阶段进阶训练策略:预训练阶段通过多条件感知桶采样平衡任务分布,随机动态指令提升泛化理解能力;微调阶段引入高质量数据优化表现;强化学习阶段创新采用非对称梯度优化与Layout-Aware OCR-based Reward机制,不仅惩罚错别字,更对字符错位、大小异常、布局崩坏等问题进行约束,大幅提升文字编辑准确性。
核心能力:从文字精修到创意生成全覆盖
FireRed-Image-Edit真正实现了”编辑而非重绘”的核心诉求,在三大核心场景中展现出业界领先的实力:
文字编辑:版式风格精准传承
面对海报文字替换、自定义文字添加等需求,模型能完美保持原有字体风格、大小比例与布局逻辑。例如将海报中的”programme”修改为”program ongoing”,字符间距、字体质感与整体版式高度统一,彻底解决传统工具改字易崩版的痛点。在复杂场景中,还能精准生成指定字体的文字内容,如在童话风画面中呈现手写体板书,细节还原度达到商业级水准。
指令理解:语义对应精准无误
通过随机指令对齐机制,模型能真正理解语义与图像的对应关系,而非机械匹配。面对”修正图像错误”等模糊指令,可自动识别画面中的文字错误、元素错位等问题并精准修正;处理多条件组合指令时,能同时满足风格要求、元素增减、细节调整等多重需求,指令遵循一致性远超同类模型。
创意拓展:风格迁移与多图融合
模型支持创造力场景生成与多参考图融合,可实现风格迁移、智能换装、画质修复等多元需求。无论是将普通照片转化为震撼游戏CG风格,还是基于多张参考图为模特搭配服饰,亦或是修复老照片并上色,都能输出高清、自然、细节丰富的结果。其中,低画质增强功能将超分、去模糊、去噪等底层视觉任务纳入指令微调,用户一键即可实现模糊图像的清晰度提升。
开源赋能:人人都是专业设计师
目前,FireRed-Image-Edit的代码、技术报告与demo网页已正式开源,模型权重也将在近期上线。开发者可通过GitHub获取完整项目资源,在Hugging Face直接体验在线demo,无需复杂配置即可调用专业图像编辑能力。
作为小红书多模态基础模型体系的重要组成部分,FireRed-Image-Edit延续了团队”技术落地为核心”的理念。此前,Super Intelligence Team已沉淀InstantID、StoryMaker等多个开源成果,成功孵化语音评论、满屏高清等站内爆款功能。未来几个月,团队将持续迭代模型,进一步提升人像美化、编辑一致性与文字处理能力,并开源文生图基座模型,为创作者提供更全面的工具支持。
业内人士表示,FireRed-Image-Edit的开源不仅降低了专业图像编辑的技术门槛,更通过创新的评测标准与训练机制,为行业发展提供了可参考的技术范式。随着这款工具的普及,无论是日常P图、海报制作,还是创意设计、老照片修复,都将变得高效简单,真正让AI图像编辑走进大众生活。