何恺明团队再掀生成模型革命:邓明扬一作提出“漂移模型”,单步生成精度碾压多步扩散

AI 资讯8小时前发布 dennis
0

【量子位 2026年2月6日讯】生成模型领域迎来范式级突破。近日,MIT何恺明团队联合奥赛双料金牌得主邓明扬(一作)提出全新“漂移模型(Drifting Models)”,将生成模型的分布演化过程从“推理阶段”彻底转移到“训练阶段”,实现真正意义上的单步生成——在ImageNet 256×256基准测试中,仅需1次网络前向传播(1-NFE)便取得1.54 FID的顶尖成绩,不仅刷新单步生成纪录,更超越需250步迭代的传统扩散模型,为图像生成、机器人控制等领域提供全新高效解决方案。

一、核心革新:把“多步迭代”搬进训练,推理时一步到位

当前主流生成模型(如扩散模型、流匹配模型)面临共同痛点:需在推理阶段进行数十甚至数百步迭代(如扩散模型的去噪过程),导致生成速度慢、计算成本高。而漂移模型通过重构“分布演化逻辑”,从根源上解决这一问题:

1. 范式转移:训练迭代即分布演化

漂移模型的关键洞察在于——神经网络的训练过程本身就是“迭代优化”,可直接作为分布演化的动力。传统模型仅关注训练中损失函数的下降,而漂移模型赋予每一轮训练迭代物理意义:模型参数的微小更新,会驱动输出样本在空间中产生“漂移(Drift)”,即样本位置随训练步次的位移。

这种设计让“分布从先验噪声向真实数据靠拢”的过程,完全内化于训练阶段。当模型训练完成时,映射函数已完成分布演化,推理时无需再进行多步迭代,仅需单次前向传播就能生成高质量样本,彻底消除推理阶段的计算负担。

2. 漂移场机制:平衡“吸引”与“排斥”,避免模式坍缩

为精准控制分布演化方向,团队引入“漂移场(Drifting Field)”机制——这是一个作用于训练阶段的动态函数,为样本位移提供“导航”:

  • 吸引力:驱动生成样本向真实数据分布靠拢,确保细节保真度,例如让生成的“猫”图像在纹理、姿态上贴合真实猫的特征;

  • 排斥力:防止生成样本过度相似,维持多样性,避免GANs常见的“模式坍缩”问题(如所有生成图都只有一种猫的姿态);

  • 平衡目标:当生成分布与真实数据分布完全匹配时,漂移场归于零,模型达到训练平衡状态,此时生成质量与多样性最优。

在损失函数设计上,团队采用“梯度停止(Stop-gradient)”策略:将当前步漂移后的样本位置视为冻结目标,驱使模型预测向该目标靠拢,间接最小化漂移量,避免直接对复杂漂移场求导导致的训练不稳定。

二、性能突破:单步生成碾压多步模型,跨领域泛化能力出众

漂移模型在核心基准测试中展现出“速度与精度双优”的特性,彻底打破“单步生成质量不如多步”的固有认知:

1. ImageNet图像生成:单步FID达1.54,超越250步扩散模型

在ImageNet 256×256基准测试中,漂移模型表现惊艳:

  • 潜空间生成:1-NFE下FID(越低越好)达1.54,优于需250步迭代的传统扩散模型(通常FID在2.0以上);

  • 像素空间生成:FID为1.61,无需依赖潜空间压缩,直接在高维像素空间实现高精度生成;

  • 效率优势:生成一张256×256图像的计算量,仅为传统扩散模型的1/250,在边缘设备上也能快速运行。

2. 机器人控制任务:单步决策媲美100步Diffusion Policy

漂移模型的高效性不仅限于图像生成,在具身智能领域同样表现出色。在机器人控制任务(如机械臂抓取、导航)中,其单步推理的决策质量,可匹配需100步推理的Diffusion Policy,大幅降低实时控制系统的延迟,为机器人在动态环境中的快速响应提供可能。

三、技术细节:高维特征空间+内置CFG,攻克两大核心难题

为适配图像等高维数据,团队还设计了两项关键技术,解决传统单步模型的性能瓶颈:

1. 特征空间映射:提升高维数据生成保真度

直接在像素空间处理高维数据(如256×256图像含19.6万像素)难度极大,漂移模型引入MAE、MoCo等预训练自监督模型,构建“像素空间→高维特征空间”的映射。在特征空间中引导分布匹配,能在语义层面(如物体轮廓、纹理结构)精准控制生成过程,避免像素空间的冗余噪声干扰,生成保真度显著提升。

2. 内置分类器自由引导(CFG):无需额外开销

传统模型的CFG机制(用于控制文本与图像的匹配度)需在推理阶段额外计算,增加开销。漂移模型则在训练阶段就将CFG内化:计算漂移时向负样本中混入无条件真实数据,让模型在训练中自发学会“条件外推”,推理时无需额外操作,单步生成就能实现强文本引导效果(如精准生成“戴红色帽子的猫”)。

四、团队背景:奥赛金牌得主领衔,何恺明保驾护航

此次论文的核心团队阵容堪称“学霸云集”,既有顶尖学者掌舵,也有新生代力量突破:

  • 一作邓明扬:人称“乖神”,人大附中校友,IMO(国际数学奥林匹克)、IOI(国际信息学奥林匹克)双料金牌得主,IOI历史第三位满分选手;本科与博士均就读于MIT,现为博士二年级,师从何恺明,曾在Google DeepMind、Meta FAIR等机构实习,此次是其加入何恺明团队后的首篇一作论文;

  • 其他作者:包括清华姚班校友李赫(大三在读,曾在何恺明课题组实习)、黎天鸿(姚班校友,博士后),以及哈佛大学助理教授Yilun Du(国际生物奥赛金牌得主,前OpenAI研究员);

  • 通讯作者何恺明:深度学习领域泰斗,ResNet提出者,MIT终身副教授,长期聚焦视觉模型与生成架构创新,此次署名进一步印证该成果的学术分量。

五、行业意义:生成模型进入“单步高效”时代

漂移模型的提出,不仅为生成模型提供了全新技术路径,更推动领域从“追求多步精度”向“兼顾效率与精度”转型:

  • 效率革命:单步生成大幅降低部署门槛,让生成模型可应用于手机、机器人等边缘设备,例如手机端实时生成高清图像、机器人毫秒级决策;

  • 理论价值:重新诠释了“训练过程与分布演化”的关系,为后续统一“感知—生成—推理”的通用架构提供思路;

  • 应用延伸:目前已在图像生成、机器人控制验证效果,未来有望拓展至视频生成、3D建模等领域,进一步释放高效生成的潜力。

据悉,该论文已上传至arXiv平台,项目主页同步开放技术细节。对于生成模型领域而言,这场由“双料奥赛金牌+顶流学者”联手推动的范式革命,或许只是开始——当单步生成的精度与效率全面超越多步模型,生成AI的应用场景将迎来更多想象空间。

我可以帮你整理漂移模型的核心技术原理、实验数据对比(如与扩散模型、GANs的性能差异)及团队背景,制作成一份“技术解析图谱”,方便你快速把握关键信息。需要我这样做吗?

© 版权声明

相关文章