【量子位 2025年12月17日讯】在“红色警报”(Code Red)战略下,OpenAI的反击速度远超预期。12月16日,这家AI巨头正式发布新一代图像生成模型GPT Image 1.5,不仅将生成速度提升4倍,还解决了前代模型“编辑崩图”的核心痛点,支持像素级精准修改与跨轮次视觉一致性保持。此举被视为对谷歌Gemini 3及Nano Banana Pro的直接回应——自上月OpenAI CEO山姆·奥特曼(Sam Altman)泄露“代码红色”内部备忘录后,这场AI多模态领域的攻防战已进入白热化阶段。
目前,GPT Image 1.5已面向全球所有ChatGPT用户(含免费用户)及API开发者开放,ChatGPT网页端与移动端还新增独立“Images”入口,内置预设滤镜与灵感提示词,将图像生成从“聊天附属功能”升级为“专属创意工作室”。
核心突破:从“能生成”到“可控制”,三大能力重构AI绘图体验
相较于2025年4月发布的GPT Image 1,新版本的核心升级集中在“实用性”与“可控性”,直击专业创作者与企业用户的痛点:
-
4倍速生成+20%成本下降,效率与性价比双升官方数据显示,GPT Image 1.5在保持画质的前提下,生成速度最高可达前代的4倍——此前需30秒渲染的高清图像,现在7-8秒即可完成;同时API调用成本整体降低20%,按分辨率不同,每千张图像生成成本低至9美元(低质量)、高至133美元(高质量)。这一调整对电商、广告等需批量生成素材的行业尤为友好,Wix、Canva等平台已宣布接入该模型,用于自动化设计海报与商品图。
-
精准编辑不“崩图”,跨轮次保持视觉一致性长期以来,AI图像编辑的最大痛点是“改局部毁全局”——调整人物服饰可能导致面部变形,修改场景光照可能破坏构图。而GPT Image 1.5通过增强“空间约束算法”与“语义理解能力”,可精准锁定需修改区域:例如给人物更换发型时,能保留其五官特征、肤色与背景光影;连续多轮编辑(如添加元素、切换场景)后,核心视觉锚点(如人物姿态、物体比例)仍保持一致。实测案例显示,用户先生成“洛杉矶街头滑板场景”,后续指令“将滑板者衣服改为红色”“添加围观群众”“把画面印在T恤上”,模型均能准确执行,未出现细节失真或风格偏移。OpenAI应用负责人菲吉·西莫(Fidji Simo)将其形容为“像用数字画笔直接修改,而非重新创作”。
-
文本渲染突破“乱码”难题,支持结构化视觉生成此前AI生图常因“文本乱码”遭诟病,而GPT Image 1.5在文字处理上实现显著优化:可清晰生成小字号、密集排版的文本(如海报标语、信息图表标签),字母边缘 crisp、对比度强,甚至支持手写体模拟。同时,模型对“结构化内容”的理解能力提升,能生成符合逻辑的多面板漫画、数据可视化图表、UI原型图等——例如输入“制作包含3个步骤的咖啡机使用流程图,配文字说明”,模型可自动排版步骤顺序与文字位置,无需额外调整。
产品形态升级:ChatGPT变“移动修图室”,降低创作门槛
为配合新模型能力,OpenAI对ChatGPT的交互体验进行重构,让专业级图像创作无需“懂提示词”:
-
独立“Images”入口,打造沉浸式创作空间用户在ChatGPT侧边栏可找到专属“Images”标签,进入后无需在聊天框输入指令,直接通过可视化界面操作:选择“从零创作”或“上传图片编辑”,搭配“电影海报”“复古胶片”“极简商务”等预设风格模板,输入简单描述(如“为咖啡馆设计圣诞促销海报”)即可生成专业级内容。界面还实时展示“热门提示词”,为新手提供灵感参考。
-
一键复用创作元素,提升迭代效率用户可上传个人肖像、品牌Logo等素材并“保存为模板”,后续生成图像时直接调用,避免重复描述细节。例如电商卖家上传产品图后,可快速生成“产品在客厅场景”“产品搭配模特”等不同版本,且产品的颜色、比例始终保持一致。
战场定位:对抗谷歌Nano Banana Pro,争夺多模态霸权
GPT Image 1.5的仓促发布(原计划2026年1月推出),直指谷歌近期在图像领域的强势表现——后者的Nano Banana Pro凭借精准编辑与文本生成能力,长期霸榜LMArena等评测榜单,甚至抢占了OpenAI的部分企业客户。
从目前评测与实测来看,双方各有胜负:
-
OpenAI优势:指令遵循率与生态整合第三方机构Artificial Analysis数据显示,GPT Image 1.5在“文本转图像”与“图像编辑”的指令遵循率上达90%,远超Nano Banana Pro的78%;且依托ChatGPT庞大的用户基数与API生态,开发者可无缝将图像生成与语言理解、代码生成等功能结合,构建“文生图+图生文+交互编辑”的全链路应用。
-
谷歌仍领先:复杂场景与细节处理网友实测发现,在处理“手写体笔记生成”“多元素复杂构图”(如包含数十个物体的信息图)时,Nano Banana Pro的逻辑一致性更优。例如生成“数学公式手写笔记”,GPT Image 1.5虽能还原笔记格式,却出现公式计算错误;而Nano Banana Pro可同时保证格式与内容准确性。此外,在“动态光影模拟”(如夕阳下的玻璃反光)等细节渲染上,谷歌模型仍略胜一筹。
技术伏笔:Sora团队参与,暗示图像与视频协同
此次发布还透露一个关键信号:GPT Image 1.5的研发团队集结了OpenAI多模态领域的核心力量——除项目负责人Gabriel Goh与Adele Li外,视频生成模型Sora的负责人Bill Peebles、DALL-E缔造者Aditya Ramesh均参与其中。这一配置引发行业猜测:GPT Image 1.5可能在底层架构上借鉴了Sora的“世界模拟”技术,为未来“图像一键转视频”“跨模态内容生成”(如从文字生成图像再扩展为短视频)铺路。
OpenAI在官方博文中也暗示这一方向:“视觉创作不应局限于静态画面,未来我们将打通图像与视频的边界,让创意从‘瞬间’延伸到‘动态’。”
从“红色警报”到紧急亮剑,OpenAI用GPT Image 1.5展现了其在多模态领域的快速反应能力。尽管在复杂场景处理上仍需追赶谷歌,但4倍速、精准编辑与成本下降的组合拳,已让它成为企业与创作者的实用工具。这场AI图像领域的军备竞赛,最终受益的将是用户——随着技术迭代,“人人都是设计师”的愿景正逐步落地。而OpenAI与谷歌的下一回合较量,或许将很快在“图像转视频”的战场上打响。