【量子位 2025年12月23日讯】AI图像生成领域迎来“结构化编辑”里程碑!12月22日,阿里巴巴正式开源全新图像模型Qwen-Image-Layered,首次在模型架构内实现Photoshop级的图层理解与生成能力。该模型通过自研RGBA-VAE编码与VLD-MMDiT架构,能将普通图像自动拆解为带透明通道的独立图层,支持物体位移、颜色修改、内容替换等精准操作,且编辑后背景与主体“零漂移”,彻底解决AI生图“牵一发而动全身”的行业痛点,为广告设计、影视后期、UI创作等专业场景注入新动能。
目前,Qwen-Image-Layered已在魔搭社区、HuggingFace及GitHub开源,支持免费商用。作为阿里千问系列又一重磅成果,该模型进一步巩固了阿里在开源视觉大模型领域的领先地位——截至目前,千问系列已开源近400个模型,全球下载量超7亿次,衍生模型数达18万个,服务超100万家企业客户。
行业痛点:AI生图“难编辑”,专业场景遇瓶颈
长期以来,主流视觉大模型虽能生成创意图像,却因“扁平式像素理解”陷入编辑困境:
-
编辑一致性差,像开“盲盒”传统AI模型将图像视为紧密耦合的像素集合,无法感知物体的空间层级与遮挡关系。例如想将海报中的“红色水杯”改为蓝色,AI可能同时改变背景色调;将人物向左移动10厘米,空出的背景会被随机生成的内容替代,导致整体画面脱节。这种“修改一个元素,毁掉整张图”的随机性,让AI在广告设计、电商详情页制作等需精准迭代的场景中,只能作为“参考工具”,无法替代PS等专业软件。
-
专业设计效率低,人工成本高为实现精准编辑,设计师需先手动抠图(耗时数小时)、分层保存,再在AI生成基础上反复调整,流程繁琐。以影视后期为例,若需修改某一帧中的道具颜色,传统AI需重新生成整帧画面,难以保证与前后帧的连贯性,最终仍需人工逐帧修正,效率极低。
技术突破:三大核心创新,让AI懂“分层思维”
Qwen-Image-Layered通过架构革新,让AI具备专业设计师的“分层逻辑”,从根本上解决编辑难题:
-
RGBA-VAE编码:给模型注入“图层概念”模型创新引入带Alpha透明度通道的RGBA-VAE编码器,突破传统RGB图像的维度限制——Alpha通道能精准标记每个像素的透明属性,让模型自动识别“主体(不透明)”与“背景(透明)”,将图像拆解为独立图层。例如处理“猫咪趴在沙发上”的图像时,模型会生成“猫咪层”“沙发层”“背景墙层”,各图层边缘无锯齿、无残留,精度媲美人工抠图。
-
VLD-MMDiT架构:理解空间层级,自动“脑补”遮挡内容针对图层间的空间关系与遮挡逻辑,模型采用创新的Variable Layers Decomposition MMDiT(VLD-MMDiT)架构,配合“图层级3D位置编码”:
-
能识别物体的前后层级(如“杯子在书本前方”),编辑时仅作用于目标图层,不干扰其他内容;
-
当某图层被移动或删除时,模型会基于周围纹理“智能补全”背景(如移走桌子后,地面纹理会无缝衔接),避免传统AI的“随机生成”问题。
实测显示,编辑“人物替换”“文字修改”“物体缩放”等场景时,Qwen-Image-Layered的视觉一致性得分达96.7%,远超同类模型的78.3%。
- PSD数据训练:让AI从“出生”就懂专业设计为让模型掌握真实图层逻辑,阿里团队从海量专业Photoshop(PSD)文件中提取分层数据,构建专属训练数据集——这些数据包含设计师标注的“图层命名”“蒙版关系”“混合模式”等专业信息,让模型学习“如何像人一样分层作图”。例如训练后,模型能自动将“电商产品图”拆解为“产品层”“价格标签层”“促销文案层”,与设计师的分层习惯高度契合。
功能实测:PS级精准操作,覆盖多场景需求
Qwen-Image-Layered支持的编辑能力已全面对标专业设计软件,且操作更高效:
-
多层级自由拆解,灵活度拉满模型可根据需求将单张图像拆解为3-8个语义独立的图层,例如将“城市夜景图”拆分为“天空层”“建筑层”“街道层”“行人层”,每个图层可单独导出为带透明背景的PNG文件,方便后续二次创作。
-
精准编辑“零漂移”,效果可控针对不同专业场景,模型展现出强大的编辑稳定性:
-
广告设计:修改海报中的“品牌Slogan”,文字字体、颜色、大小可独立调整,背景纹理与版式完全不变;
-
UI创作:将APP界面中的“蓝色按钮”改为绿色,按钮阴影、圆角等细节保留,其他界面元素无任何偏移;
-
影视后期:调整某帧画面中“演员的服装颜色”,修改后与前后帧的光影、构图保持一致,无需人工逐帧校准。
- 操作门槛低,设计师“上手即会”模型支持“文本指令+图像输入”的交互方式,无需复杂参数调优。例如输入指令“将图中第2层的红色汽车改为白色,保持其他内容不变”,模型即可自动识别目标图层并完成修改,整个过程耗时仅数秒,大幅降低专业设计的技术门槛。
行业价值:重构视觉创作流程,降本增效显著
Qwen-Image-Layered的开源,将从多维度重塑视觉内容生产链:
-
专业场景效率提升10倍以上以电商详情页制作为例,传统流程需“AI生成初稿→设计师抠图分层→手动调整细节”,耗时约8小时;使用Qwen-Image-Layered后,模型可直接生成分层图像,设计师仅需修改目标图层,整体耗时缩短至40分钟,效率提升12倍。某快消品牌试用后表示,其双12促销海报的迭代周期从“3天/版”压缩至“2小时/版”,设计团队人力成本降低60%。
-
推动AI与专业工具融合目前已有多家设计软件厂商计划接入该模型——例如将Qwen-Image-Layered的分层能力集成至PS插件,实现“AI自动分层→设计师精准微调”的无缝衔接;影视后期软件可借助其图层一致性优势,快速批量修改多帧画面中的同一元素,解决传统逐帧编辑的痛点。
-
开源生态加速创新,惠及中小团队模型开源后,开发者可基于其底层架构扩展功能,例如针对“3D建模分层”“动态图层生成”等场景优化;中小企业无需投入巨额研发成本,即可获得专业级AI编辑能力,例如小型广告公司可快速制作多版本海报,满足不同客户的定制需求。
开源生态:阿里千问持续领跑,赋能产业智能化
Qwen-Image-Layered的推出,是阿里“开源战略+产业落地”双轮驱动的又一体现:
-
开源成果斐然,构建技术护城河自千问系列开源以来,已形成覆盖文本、图像、语音、多模态的完整模型矩阵,下载量、衍生模型数均居全球开源大模型首位。此次分层图像模型的开源,进一步填补了“专业级编辑”领域的空白,吸引更多开发者加入生态,形成“模型优化→场景落地→反馈迭代”的正向循环。
-
企业级服务能力领先,落地场景广泛依托开源生态积累,阿里通义大模型已在电商(淘宝详情页AI生成)、传媒(浙报集团智能排版)、汽车(车企广告素材制作)等领域深度落地,在中国企业级大模型调用市场份额中位居第一。Qwen-Image-Layered的商用,将进一步拓展其在专业设计、影视制作等垂直领域的应用,助力更多企业实现“降本增效”。
随着Qwen-Image-Layered的普及,AI视觉创作正从“生成创意”迈向“精准生产”的新阶段。正如阿里千问团队所言:“未来的视觉大模型,不仅要会‘画’,更要会‘改’——让每个设计师都能借助AI,将创意高效转化为专业成果。”而开源模式的持续推进,也将让这一能力惠及全球开发者,加速智能设计时代的到来。