【量子位 2026年2月3日讯】AI图像生成领域又迎来颠覆性突破!MIT终身副教授何恺明团队推出全新模型Pixel Mean Flow(pMF),彻底抛弃传统扩散模型依赖的“多步采样”与“潜空间编码”两大核心组件,实现“一步像素直出”——仅需一次神经网络前向传播,就能在原始像素空间生成高保真图像。在ImageNet基准测试中,pMF在256×256分辨率下斩获2.22 FID的优异成绩,512×512分辨率下也达到2.48 FID,不仅刷新单步无潜空间生成模型的性能纪录,计算量更是比StyleGAN-XL降低5.8倍。更令人瞩目的是,这项成果的共同一作中包含多名MIT本科生,其中清华姚班大二学生孙启傲(IMO金牌得主)的参与,让“天才少年+顶尖导师”的研发组合成为热议焦点。
一、颠覆传统:砍掉两大“拐杖”,生图效率翻倍
长期以来,扩散模型生成图像始终绕不开“多步采样”和“潜空间”两个技术“拐杖”——前者需要反复运行神经网络(通常30-100步)逐步去噪,后者需先将图像压缩到低维空间再处理,两者共同导致生图速度慢、计算成本高。而pMF的核心突破,正是彻底摆脱这两大限制。
1. 一步生成:从“反复迭代”到“一次成型”
传统扩散模型生成一张图,相当于“分多次慢慢打磨”:从纯噪声开始,每次运行网络去除部分噪声,逐步逼近真实图像。以Stable Diffusion为例,生成一张512×512图像需20-50步采样,单次生成耗时可达数秒。
pMF则实现“一步到位”:网络直接接收随机噪声输入,经过一次前向传播就输出完整像素级图像,无需任何迭代。团队通过创新的“平均速度场变换”技术实现这一突破——定义新的低维流形场x,让网络直接预测自然图像所在的低维空间特征,而非高维噪声空间的去噪方向。实验显示,在2D玩具模型中,当数据从2维投影到512维高维空间时,传统方法直接崩溃,而pMF的x-prediction仍能稳定工作;在ImageNet 256×256实验中,传统u-prediction的FID飙升至164.89,pMF却将FID控制在个位数。
2. 像素空间直出:抛弃潜空间,成本大降
潜空间编码是另一个传统痛点:为降低计算量,模型需先通过VAE将图像压缩到低维潜空间处理,生成后再通过VAE解码器还原为像素图像。这不仅增加“压缩-解压”的额外步骤,VAE解码器本身的计算开销也不容忽视——标准SD-VAE解码器在256分辨率下需310 Gflops,512分辨率下达1230 Gflops,已超过pMF整个生成器的计算量。
pMF直接在原始像素空间生成图像,完全省去潜空间相关步骤:
-
计算效率:在256×256分辨率下,pMF-H/16模型单次前向传播仅需271 Gflops,是StyleGAN-XL(1574 Gflops)的1/5.8,即便算上传统方法忽略的VAE解码器开销,pMF的综合计算成本仍降低60%以上;
-
质量优势:由于无需经过VAE压缩,避免了“潜空间失真”问题,图像细节更丰富。同时,pMF创新性地将潜空间方法专属的“感知损失”引入像素级训练,加入后FID从9.56直接降至3.53,画质提升显著。
二、技术拆解:三大核心设计支撑“一步直出”
pMF能实现“无多步、无潜空间”的突破,源于团队在模型架构、损失函数、训练策略上的三重创新,每一环都精准解决传统方法的痛点。
1. 平均速度场变换:锁定低维流形,降低学习难度
团队基于“流形假设”(自然图像位于低维流形上),设计了核心的“平均速度场变换”机制:
-
定义新场x:将传统扩散模型预测的“噪声速度场u”(对应高维噪声空间),通过数学变换转为“低维流形场x”(对应自然图像特征),让网络只需学习低维空间的简单映射,而非高维噪声的复杂去噪过程;
-
可视化验证:通过ODE轨迹追踪发现,速度场u对应杂乱的噪声图像,而变换后的x场直接呈现近乎干净或轻微模糊的图像,证明x场更接近真实图像分布,学习难度大幅降低。
2. 感知损失引入:像素级训练也能“感知画质”
感知损失(Perceptual Loss)原本是VAE等潜空间模型的“专属工具”,通过对比图像在预训练CNN中的特征来优化画质,比单纯的像素级MSE损失更符合人类视觉感知。pMF通过“直接输出像素图像”的特性,首次将感知损失引入生成器本身的训练:
-
效果显著:在ImageNet实验中,仅加入感知损失一项优化,FID就从9.56降至3.53,提升约6个点,尤其在纹理细节(如动物毛发、植物叶脉)的生成上,画质提升肉眼可见;
-
兼容性强:感知损失可与其他优化策略(如Muon优化器、MeanFlow时间采样)叠加,进一步降低FID,最终让pMF在256×256分辨率下突破2.3 FID。
3. 关键训练策略:从优化器到采样的全链路优化
团队还通过大量消融实验,确定了最优训练配置,确保模型稳定收敛:
-
优化器选择:采用Muon优化器替代传统Adam,收敛速度提升30%,最终FID更低;
-
时间采样:沿用MeanFlow的“全平面采样”策略,若仅在r=t或r=0单线上采样,模型会直接训练失败,证明全平面采样对捕捉速度场特征至关重要;
-
预条件器简化:传统EDM、sCM风格的预条件器在高维像素空间效果不佳,pMF直接采用x-prediction,简化架构的同时提升稳定性。
三、实验成绩:刷新多维度纪录,碾压同类方法
在ImageNet基准测试中,pMF在不同分辨率下均展现出碾压性优势,同时兼顾性能与效率,打破“单步生成画质差”的固有认知。
1. 256×256分辨率:FID 2.22,远超同类方法
在256×256分辨率下,pMF-H/16模型以2.22 FID的成绩,大幅超越此前唯一的单步无潜空间方法EPG(8.82 FID),甚至逼近部分多步扩散模型:
-
与GAN对比:达到StyleGAN-XL相近的FID(约2.0-2.5),但计算量仅为后者的1/5.8;
-
与多步模型对比:虽略高于多步扩散模型(如SD-1.5多步采样FID约1.8),但生成速度提升30-50倍,在实时生成场景(如游戏、直播)更具优势。
2. 512×512分辨率:保持低开销,FID 2.48
为验证模型在更高分辨率下的表现,pMF采用32×32大patch尺寸,确保计算开销与256×256分辨率相近:
-
性能表现:512×512分辨率下FID达2.48,仅比256×256分辨率高0.26,证明模型在高分辨率下仍能保持稳定画质;
-
效率优势:传统模型提升分辨率时计算量会呈平方增长(512×512是256×256像素数的4倍),而pMF通过大patch设计,将512分辨率的计算开销控制在256分辨率的1.2倍以内,实现“分辨率提升,成本可控”。
四、团队亮点:大二本科生跻身核心研发,天才少年引关注
这项顶级成果的研发团队中,多名年轻研究者的参与成为亮点——共同一作包括MIT本科生陆伊炀(全国中学生物理竞赛CPhO金牌)、Susie Lu、孙启傲(IMO金牌得主,清华姚班大二在读)、赵瀚宏(国际物理奥林匹克竞赛IPhO金牌得主),展现出“顶尖导师+天才学生”的高效研发模式。
其中,孙启傲的经历尤为引人关注。作为清华姚班(计算机科学实验班)的大二学生,他凭借IMO金牌的扎实数学功底,深度参与pMF的数学理论推导,尤其在“平均速度场变换”的公式验证环节贡献关键思路。何恺明在论文致谢中提到:“年轻研究者的创新视角,帮助团队跳出传统扩散模型的思维定式,敢于尝试‘砍掉多步与潜空间’的激进方案。”
这种“师徒制”研发模式并非首次——何恺明此前提出的MeanFlow模型,核心成员也包含本科生,此次pMF的成功再次证明,顶尖学术资源与年轻人才的结合,能催生颠覆式创新。
五、行业意义:生图模型迈入“高效实用”新阶段
pMF的发布不仅是技术突破,更将推动AI图像生成从“追求画质极限”向“兼顾效率与实用”转型,为多个行业场景带来新可能。
1. 降低实时生成门槛
传统多步扩散模型因速度慢,难以应用于实时交互场景(如元宇宙 avatar 生成、游戏实时渲染)。pMF的一步生成特性,将单次生图时间压缩至毫秒级,可直接满足实时需求:
-
元宇宙:用户调整avatar形象后,可瞬时生成高保真外观,无需等待加载;
-
直播/短视频:实时生成特效贴纸、背景替换,延迟低于100毫秒,提升交互体验。
2. 推动端侧生图普及
由于计算量大幅降低,pMF有望在手机、平板等端侧设备上实现高质量生图:
-
端侧适配:pMF的轻量化架构(256分辨率仅需271 Gflops),可在旗舰手机GPU上流畅运行,无需依赖云端服务器;
-
隐私保护:端侧生图避免图像数据上传云端,降低隐私泄露风险,尤其适合医疗、设计等敏感场景。
3. 启发生成模型新方向
pMF的最大价值,在于证明“传统技术组件并非不可替代”——多步采样和潜空间是扩散模型发展初期的折中方案,随着模型能力与训练技巧的进步,这些“拐杖”正在变得多余。正如团队在论文结尾所言:“希望这项工作鼓励更多研究者探索直接、端到端的生成建模,单步无潜空间生成已从‘是否可行’进入‘如何做得更好’的新阶段。”
目前,pMF的论文已发布于arXiv平台,代码与模型权重即将开源。业内预计,随着pMF技术的普及,AI生图将加速从“实验室演示”走向“产业实用”,为设计、娱乐、医疗等领域带来更高效的图像生成解决方案。而何恺明团队“持续精简架构、追求极致效率”的研发思路,也将为生成模型领域提供重要的技术范式参考。