【量子位 2025年12月23日讯】AI视觉生成领域迎来颠覆性突破!MiniMax海螺视频团队首次开源核心技术——视觉分词器预训练框架VTP(Visual Tokenizer Pre-training),不仅破解了“视觉分词器砸钱越多、生成效果越差”的行业悖论,更首次证明:视觉Tokenizer也具备明确的Scaling Law(缩放定律)。只需替换这一分词器,下游生成模型(如DiT)可在不改动任何配置的情况下,实现生成性能倍数级提升,为图像、视频生成效率与质量的突破提供了全新路径。
目前,VTP的代码、论文与模型权重已全面公开,开发者可直接基于该框架优化现有生成模型,这一动作或将重塑视觉生成领域的技术研发范式。
行业痛点:传统Tokenizer陷入“重建陷阱”,算力投入打水漂
在当前主流的“分词器+生成模型”两阶段视觉生成框架中,视觉Tokenizer(如VAE)承担着“压缩图像至潜在空间”的关键角色,其性能直接决定生成模型的上限。但长期以来,行业陷入一个尴尬困境:
-
重建越好,生成越差的“悖论”传统Tokenizer以“像素级重建精度”为核心训练目标,即尽可能将压缩后的潜在特征还原为原始图像。然而MiniMax团队通过实验发现,随着算力投入增加,传统Tokenizer的重建精度(以rFID衡量)从2.0降至0.5,看似效果提升,但生成质量(以gFID衡量)却从55.04升至58.56,反而明显下滑。这就像“用顶级食材却做出难吃的菜”,大量算力投入未转化为生成效果的提升,反而因过度关注局部纹理、噪点等低层信息,忽视了生成任务依赖的高层语义与整体结构,陷入“重建陷阱”。
-
视觉生成领域长期缺失Scaling Law在大语言模型领域,“参数越多、数据越多、算力越足,模型越强”的Scaling Law早已是共识,但视觉生成领域却始终未能找到这一规律。传统Tokenizer在投入约1/10算力后,生成性能便趋于饱和,继续追加资源不仅无收益,甚至可能导致效果倒退,这让视觉生成模型的研发陷入“盲目堆算力却难见回报”的困境。
技术破局:VTP三管齐下,让Tokenizer兼具“理解力”与“扩展性”
针对传统Tokenizer的缺陷,MiniMax海螺团队重构训练逻辑,打造出VTP框架,核心在于从“像素级重建”转向“语义化理解+结构化表达”的联合优化:
- 三大训练目标协同,注入“语义理解力”VTP打破传统单一重建目标的局限,通过多任务损失函数实现“理解、重建、生成”的协同优化:
-
图文对比学习(CLIP任务):输入海量图像-文本配对数据(如“猫咪在沙发上”与对应图片),迫使Tokenizer在压缩图像时,让视觉特征与文本语义高度对齐。例如压缩“猫咪跳水”图像时,会主动保留“猫咪形态”“空中转体”“入水水花”等语义信息,而非仅捕捉像素细节,让潜在特征自带“语义标签”。
-
自监督学习(SSL任务):结合掩码图像建模(MIM)与自蒸馏(DINO风格),“倒逼”Tokenizer理解图像结构:通过MIM让模型根据局部像素推断完整图像(如遮挡“猫咪头部”仍能还原整体形态),通过自蒸馏提炼图像核心视觉主题,双重机制构建结构化视觉认知。
-
适度重建任务:保留重建目标但重新定位其作用——不再追求“越准越好”,而是确保潜在空间中保留生成所需的纹理、颜色、边缘等细节,避免因过度关注语义而丢失底层视觉信息。
-
首次验证视觉Tokenizer的Scaling LawVTP框架最突破性的贡献,是在视觉生成领域首次找到明确的Scaling Law:
-
算力维度:随着预训练算力投入增加,VTP驱动的生成模型gFID从80+降至27左右,性能提升65.8%,且提升曲线仍未触顶;而传统Tokenizer在算力增加10倍后,生成性能基本无变化。
-
参数维度:VTP的Small/Base/Large版本性能呈阶梯式下降(gFID差异显著),而传统Tokenizer不同参数版本性能几乎重叠,完全无分层。
-
数据维度:当训练数据从10万增至1亿时,传统Tokenizer生成性能仅微降1.66(gFID从58.37至56.71),而VTP则大幅下降20.14(gFID从47.59至27.45),数据规模与生成效果呈强正相关。
实测性能:多指标碾压传统方案,收敛速度提升5.7倍
在公开基准测试中,VTP框架展现出“理解、重建、生成”三方面的全面优势:
-
理解能力媲美顶尖通用模型:在ImageNet零样本分类任务中,VTP-L(Large版本)准确率达78.2%,超过原版CLIP的75.5%,具备强通用视觉理解能力,可精准捕捉图像中的实体、位置关系与语义逻辑。
-
重建与生成质量双领先:重建精度上,VTP的rFID低至0.36,超过Stable Diffusion VAE的0.63;生成质量上,其gFID低至2.81,显著优于此前改进方案VA-VAE的4.29,生成图像的语义保真度、细节丰富度与真实性大幅提升。
-
训练效率呈指数级提升:在达到相同生成质量的前提下,基于VTP的生成模型训练收敛速度比传统LDM快5.7倍,比VA-VAE快4.1倍。以生成“猫咪跳水”这类复杂动态场景为例,原本需要数天训练的模型,现在仅需1天即可达到同等效果,大幅降低研发成本。
行业意义:重塑视觉生成研发范式,推动多任务协同
VTP的开源与技术突破,不仅为开发者提供了“开箱即用”的优化工具,更从根本上改变了视觉生成领域的研发逻辑:
-
从“堆生成模型”转向“优化Tokenizer”此前行业将主要精力放在下游生成模型(如扩散模型)的参数堆叠与算力投入上,VTP则证明:优化Tokenizer这一“生成起点”,能以更低成本实现性能突破。未来,Tokenizer的Scaling或将成为视觉生成模型竞争的核心赛道。
-
为“理解-生成统一模型”奠基VTP生成的潜在特征,因融合了语义对齐、结构认知与细节表达,天然具备多任务适配能力。无论是图像分类、目标检测等理解任务,还是图像编辑、视频生成等生成任务,都可基于同一套Tokenizer的底层视觉表达展开,无需各自“重新学习描述世界”,为构建更高效的多模态统一模型提供了基础。
MiniMax海螺视频团队表示,未来将持续优化VTP的多模态适配能力,进一步扩展至视频生成、3D建模等更复杂场景。随着VTP的开源,预计将有更多开发者加入视觉Tokenizer的优化阵营,推动AI视觉生成向“更高效、更高质、更通用”的方向加速演进。