何恺明团队颠覆扩散模型主流玩法!让模型直接画干净图,极简架构刷新SOTA

计算机视觉领域再迎“返璞归真”的学术突破!11月20日,何恺明团队在arXiv平台发布最新论文《Back to Basics: Let Denoising Generative Models Denoise》,直指当前扩散模型的核心误区——多年来行业沉迷于让模型预测噪声或速度场,却忘了扩散模型“去燥(denoising)”的本质。团队提出极简架构JiT(Just image Transformers),摒弃复杂组件,让模型直接预测干净图像,在高维数据处理中表现稳健,不仅在ImageNet数据集上刷新SOTA级FID分数,更为扩散模型的发展指明“大道至简”的新方向。

核心观点:扩散模型被“用偏了”,应回归去燥本质

扩散模型自诞生以来,架构愈发复杂——预测噪声、优化速度场、叠加VAE压缩、引入预训练特征对齐……但何恺明团队在新论文中指出,这一系列操作早已偏离扩散模型的核心定位。“既然名为‘去燥模型’,为何不直接让它学习生成干净图像,反而要费力预测无规律的噪声?”

团队用“流形假设”解释这一误区:自然图像虽处于高维像素空间,却集中在低维流形上(可理解为“3D房间里的2D屏幕”),具备规律可循;而噪声则均匀弥散在整个高维空间,毫无结构可言。让模型预测噪声,相当于强迫神经网络拟合无规律的数据,不仅需要极大的模型容量,还容易在处理高维数据(如16×16、32×32大图像块)时训练崩溃;反之,让模型直接预测干净图像,本质是引导网络将噪点“投影回低维流形”,更符合神经网络“过滤噪声、保留信号”的设计初衷,对模型容量要求更低,训练也更稳定。

实验数据印证了这一观点:在低维空间(如ImageNet 64×64),预测噪声与直接预测图像的FID分数差距不大;但进入高维空间(如ImageNet 256×256),传统预测噪声模型的FID指数级飙升(最高达394.58),而直接预测图像的模型仍保持稳健(最低8.62),优势一目了然。

JiT架构:极简设计,从像素直接生成干净图

为验证“直接预测干净图像”的可行性,何恺明团队设计了JiT(Just image Transformers)架构,堪称扩散模型领域的“减法革命”。与主流扩散模型相比,JiT摒弃了所有复杂组件:不使用VAE压缩潜空间,不设计任何Tokenizer,无需CLIP或DINO等预训练特征对齐,也不依赖额外损失函数,完全从原始像素出发,用纯粹的Transformer实现去燥。

JiT的架构逻辑极为简洁:将原始图像切成大尺寸图像块(维度可高达3072维甚至更高),通过线性嵌入层输入Transformer网络,最终直接输出预测的干净图像块。这种设计与标准ViT(视觉Transformer)高度相似,唯一区别是将输出目标明确为“干净图像”,而非分类或其他任务。

更令人惊讶的是JiT的扩展能力:即使将图像块尺寸扩大到64×64,让输入维度突破一万维,只要坚持“直接预测干净图像”的核心逻辑,无需增加网络宽度,仍能实现高质量生成;甚至在输入端人为引入瓶颈层降维,还能因契合流形学习本质,进一步提升生成质量。这种“越简单越强大”的特性,彻底打破了“复杂架构才能出好效果”的行业惯性。

性能炸裂:刷新ImageNet SOTA,512×512图像FID低至1.78

在实验中,JiT架构展现出极强的性能优势。在ImageNet 256×256和512×512两个关键数据集上,JiT在不依赖任何复杂组件或预训练的情况下,创下SOTA级FID分数:其中JiT-G/16模型在ImageNet 256×256上的FID分数低至1.82,JiT-G/32模型在ImageNet 512×512上的FID分数更是达到1.78,远超传统扩散模型的表现。

团队还测试了不同模型规模的扩展性:从基础版JiT-B到超大版JiT-G,随着模型参数增加,FID分数持续降低。例如在ImageNet 256×256上,JiT-B/16的FID为4.37,而JiT-G/16降至2.15;训练600个epoch后,JiT-G/16的FID进一步优化至1.86,充分证明“直接预测干净图像”思路的可扩展性。

值得注意的是,JiT在512×512高分辨率图像生成上的表现尤为亮眼。由于无需VAE压缩,避免了潜空间转换带来的信息损失,JiT生成的高分辨率图像细节更丰富、纹理更自然,且训练过程更稳定,为扩散模型在高清图像生成、视觉设计等领域的应用提供了新可能。

作者背景:何恺明开门弟子领衔,学术与生活皆“接地气”

这篇论文的第一作者黎天鸿,是何恺明的开门弟子之一,学术背景十分扎实:本科毕业于清华姚班,在MIT获得硕博学位后,现于何恺明团队从事博士后研究,主要聚焦表征学习、生成模型及两者的协同,此前已作为一作与何恺明合作开发自条件图像生成框架RCG,多篇研究成果入选NeurIPS、ICLR等顶会,其中两篇更是获得顶会 Spotlight(前5%)和 Oral(前0.4%)荣誉。

有趣的是,黎天鸿不仅学术能力出众,还在个人主页分享了多道湖南家常菜菜谱,从梅菜扣肉到东安鸡,步骤详细且充满生活气息,被网友调侃“学术与厨艺双在线”。这种“严谨科研+热爱生活”的反差,也让这位年轻学者更显接地气。

何恺明团队新研究核心信息速览:

  1. 核心观点:扩散模型应回归去燥本质,直接预测干净图像,而非无规律噪声;

  2. JiT架构:极简设计,无VAE/Tokenizer/预训练对齐,从像素直接生成干净图;

  3. 实验成果:ImageNet 256×256 FID低至1.82,512×512 FID达1.78,高维数据表现稳健;

  4. 作者背景:一作黎天鸿为清华姚班出身、MIT硕博,何恺明开门弟子,学术成果丰硕;

  5. 论文地址:https://arxiv.org/abs/2511.13720

结语:“大道至简”再成学术新风向

何恺明团队的这项新研究,再次印证了“大道至简”的学术智慧——不追求复杂架构的堆砌,而是回归问题本质,让模型做自己最擅长的事。这种“减法思维”不仅为扩散模型的发展提供了全新路径,也为计算机视觉领域的研究注入了清醒的思考:技术创新未必需要“炫技”,有时找准核心方向、简化设计,反而能实现更大突破。

未来,随着JiT架构的进一步优化与推广,或许会有更多研究者重新审视扩散模型的设计逻辑,推动行业从“复杂竞赛”转向“本质探索”。而何恺明团队始终坚持的“返璞归真”式创新,也将持续为计算机视觉领域带来更多惊喜。

© 版权声明

相关文章