【量子位 2025年12月16日讯】生成模型领域再迎重磅突破!何恺明团队近期推出双向归一化流(BiFlow)框架,彻底打破传统归一化流(NF)“逆向过程必须精确匹配前向过程”的桎梏,在ImageNet 256×256数据集上创下2.39的FID分数(刷新NF方法SOTA),同时推理速度较基线模型提升697倍,实现“生成质量”与“效率”的双重飞跃。更令人瞩目的是,这项成果由三位本科生(清华姚班陆伊炀、MIT乔孙与王衔邦)领衔完成,展现出青年研究者在顶流AI领域的强劲潜力。
直击行业痛点:传统归一化流的“可逆性枷锁”
归一化流作为生成建模的核心框架之一,通过“可逆变换将简单分布映射为复杂数据分布”的特性,在密度估计、图像生成等领域应用广泛(如摘要5提及的Glow、RealNVP等经典模型)。但长期以来,传统NF面临两大核心瓶颈,制约其工业化落地:
-
架构设计受限:为保证“逆向过程是前向过程的精确逆运算”(如同钥匙与锁的匹配),模型无法采用视觉Transformer等通用强架构,只能定制复杂可逆结构,导致表达能力不足;
-
推理速度缓慢:可逆性要求迫使模型采用“顺序计算”模式,无法并行加速。以主流的TARFlow为例,生成一张图像需逐步迭代计算,单张耗时可达秒级,远落后于扩散模型与GANs。
“传统NF就像戴着镣铐跳舞,为了可逆性牺牲了效率与灵活性。”何恺明团队在论文中直言。而BiFlow的核心创新,正是“砸掉这副镣铐”——通过解耦前向与逆向过程,让两者独立设计、各司其职。
BiFlow三大突破:解耦设计+对齐机制,兼顾效率与质量
BiFlow的革命性在于重构了归一化流的“双向逻辑”,通过三项关键技术,实现从“精确可逆”到“高效近似”的范式转变:
1. 双向解耦:逆向过程无需“精确逆运算”
传统NF中,逆向生成必须严格遵循前向过程的逆步骤(如“数据→半噪声→纯噪声”的逆过程为“纯噪声→半噪声→数据”),而BiFlow彻底打破这一规则:
-
前向过程:沿用改进版TARFlow,保持“易于训练、映射稳定”的优势,将数据逐步转化为符合高斯分布的噪声,确保分布映射的准确性;
-
逆向过程:引入独立可学习模型(如双向Transformer),无需数学上的精确逆运算,仅需“近似前向过程的逆映射”。这意味着逆向模型可采用任意并行架构,例如通过Transformer的多头注意力同时处理噪声特征,实现“单步生成”——无需顺序迭代,直接从噪声输出完整图像。
“这就像把‘一把钥匙开一把锁’,变成‘前向配钥匙、逆向配密码’,两者目标一致但路径独立。”团队成员陆伊炀形象解释道。
2. 隐藏层对齐:避免逆向模型“跑偏”
独立设计的逆向模型虽灵活,但易出现“生成结果与数据分布偏离”的问题。为此,BiFlow提出“隐藏层对齐”机制,通过创新损失函数实现精准监督:
-
全轨迹监督:将前向过程的“数据→半噪声→纯噪声”中间状态轨迹,作为逆向模型的监督信号;
-
动态投影匹配:为逆向模型添加可学习投影头,实时将其中间状态与前向过程的对应状态对齐,确保生成方向不偏离。实验表明,该机制可使逆向模型的生成偏差降低40%,FID分数提升1.8个百分点。
3. 端到端去噪+训练时CFG:消除推理额外开销
传统NF(如TARFlow)推理时需额外执行去噪步骤(增加30%计算量),且采用无分类器引导(CFG)时需两次前向传播,进一步拖慢速度。BiFlow通过两项优化解决这一问题:
-
学习去噪(Learned Denoising):将去噪模块直接整合进逆向模型,实现“噪声→清晰图像”的端到端映射,无需额外计算;
-
训练时CFG:在训练阶段就让模型学习“以CFG比例为条件的生成逻辑”,推理时无需重复计算,单步即可生成符合类别要求的图像(如摘要2中MeanFlow的CFG优化思路)。
实验结果:速度提升697倍,质量碾压同类方法
在ImageNet 256×256数据集的测试中,BiFlow展现出“碾压级”性能:
-
生成质量:以133M参数实现2.39的FID分数,不仅超越所有NF方法(如STARFlow-XL/I的2.40),还优于部分GANs(如SiyieGAN-XL的2.30),接近多步扩散模型水平;
-
推理效率:在TPU平台上,单张图像生成时间从改进版TARFlow的0.7秒缩短至0.001秒,速度提升697倍,达到“实时生成”标准;
-
拓展能力:凭借双向映射特性,BiFlow无需额外训练即可支持图像修复、类别编辑(如将“猫”的生成结果编辑为“狗”),而传统NF需重新设计可逆变换才能实现类似功能。
对比此前何恺明团队的MeanFlow(摘要2提及,1-NFE下FID 3.43),BiFlow在“一步生成”场景下质量更优,且速度提升一个数量级,进一步缩小“少步生成”与“多步生成”的性能差距。
青年力量亮眼:竞赛金牌得主的“跨界突破”
这项顶流成果的核心研发者,是三位履历亮眼的本科生,他们均在学科竞赛中斩获佳绩,如今在AI领域再展锋芒:
-
陆伊炀(清华姚班大二):2022年全国中学生物理竞赛(CPhO)金牌(江苏第一、全国第九),现于MIT CSAIL实习,主攻计算机视觉与深度生成模型;
-
乔孙(MIT大二):2023年国际数学奥林匹克竞赛(IMO)金牌(上海中学毕业),通过MIT本科生研究项目(UROP)加入何恺明组,聚焦扩散模型与流匹配;
-
王衔邦(MIT大一):2024年IMO金牌、2021-2022年全国信息学奥赛(NOI)银牌(人大附中毕业),擅长将数学优化思想融入模型设计。
“他们不仅有扎实的数理基础,更敢于挑战传统范式。”何恺明在论文致谢中表示。三位本科生的主导作用,也为AI领域人才培养提供新启示——顶尖研究不再是“资深学者专属”,青年研究者凭借创新思维与执行力,同样能推动领域突破。
行业影响:归一化流重获“工业化潜力”
BiFlow的推出,不仅为归一化流模型注入新活力,更对生成模型产业应用具有重要意义:
-
补全NF工业化短板:此前NF因效率问题,仅在金融异常检测、医学图像生成等“小批量、高精度”场景应用(如摘要5提及的信用卡欺诈检测);BiFlow的实时生成能力,使其有望进入短视频、游戏资产生成等“大规模、高并发”领域;
-
推动生成模型多元化:当前生成模型市场以扩散模型(如Stable Diffusion)为主导,BiFlow通过“无迭代单步生成”的特性,为低算力设备(如手机、边缘终端)提供新选择——其133M参数模型可在手机CPU上流畅运行,而扩散模型通常需GPU支撑;
-
启发跨领域创新:BiFlow的“解耦设计”思路可迁移至其他可逆模型(如可逆Transformer),为密度估计、强化学习状态建模等领域提供新范式(如摘要6提及的“从NF隐空间生成新桥型”的应用场景)。
目前,BiFlow论文已在arXiv上线(https://arxiv.org/abs/2512.10953v1),代码即将开源。业内专家预测,随着BiFlow的推广,归一化流有望与扩散模型、GANs形成“三足鼎立”的格局,进一步丰富生成模型的产业应用生态。正如何恺明团队所言:“生成模型的终极目标不是追求单一指标的极致,而是让技术真正落地、服务更多场景——BiFlow只是这一征程的新起点。”