2026年3月7日,商汤科技联合南洋理工大学发布全新多模态模型架构NEO-unify,凭借彻底摒弃视觉编码器(VE)和变分自编码器(VAE)的无编码器设计,打破了行业长期依赖的组件拼凑范式,首次实现以近乎无损的像素和文字为原生输入的端到端多模态处理,为多模态AI从“模态连接”向“原生统一智能体”进化奠定了核心基础。
长期以来,多模态研究领域始终沿用“VE负责感知理解、VAE承担内容生成”的传统架构,这种模式在发展初期推动了技术落地,却在感知与生成之间形成了天然壁垒。即便业界后续尝试构建“共享编码器”弥补这一缺陷,也陷入了新的结构性设计权衡,难以实现真正的模态融合。面对这一行业困境,商汤与南洋理工的研发团队回归第一性原理,提出了直接处理像素和文字原生输入的一体化模型构想,最终打造出NEO-unify这一全新架构。
作为原生、统一、端到端的多模态模型架构,NEO-unify的核心突破体现在三大技术层面。其一为无编码器设计,彻底摆脱了预训练先验与规模定律的瓶颈,越过了当下视觉表征的行业争论,让模型无需依赖中间编码器即可完成多模态信息处理;其二是创新的混合变换器(MoT)架构,在同一体系内打通了视觉与语言的“理解+生成”双向能力,实现了两种模态的深度融合;其三是高效的资源利用能力,在保障高保真细节恢复的同时,大幅提升了数据与算力的利用效率,解决了传统架构资源消耗大的痛点。
为实现真正的端到端统一,NEO-unify搭建了三层核心技术框架:先通过近似无损的视觉接口,统一图像的输入与输出表示;再依托MoT原生架构,让理解与生成能力在同一体系中协同运作;最后借助统一学习框架完成跨模态训练,其中文本采用自回归交叉熵目标优化,视觉则通过像素流匹配实现训练,从底层实现了多模态信息的一体化处理。
实际测试中,20亿参数的NEO-unify(2B)展现出媲美传统架构的性能表现,更在多项任务中验证了无编码器设计的优越性。在图像重建任务中,该模型经9万步预训练后,在MS COCO 2017数据集上取得31.56 PSNR和0.85 SSIM的成绩,即便冻结理解分支,生成分支仍能精准抽取并恢复细粒度视觉细节,证明原生输入可同时支撑高质量语义理解与像素级细节保真;在图像编辑任务中,经6万步混合训练的NEO-unify(2B)在ImgEdit基准上斩获3.32的分数,冻结理解分支的状态下仍具备强大编辑能力,还能显著减少输入图像令牌数量。
此外,研发团队还发现了NEO-unify的三大核心技术特性:无编码器设计可同时保留抽象语义与细粒度表征,让模型在理解与生成上实现双重突破;无编码器架构与MoT主干高度协同,联合训练时理解能力保持稳定、生成能力快速收敛,二者内在冲突极小;无编码器架构还展现出更高的数据训练效率,相较于Bagel模型,在使用更少训练token的情况下实现了更优性能。
此次NEO-unify的发布,不仅是一次模型架构的创新,更标志着多模态AI研发范式的根本性变革,勾勒出下一代智能形态的发展路径。未来,基于该架构的模型将实现感知与生成的交织闭环,解锁全模态深层视觉推理、空间智能与世界模型涌现等能力,让模型真正实现原生跨模态思考,而非简单的模态转换。
据悉,目前NEO-unify相关研发工作正处于规模化扩张与持续迭代的关键阶段,商汤科技也计划在近期陆续发布基于该架构的系列模型成果,并向业界开放相关开源贡献。这一无编码器的原生统一架构,不仅为多模态AI的发展提供了全新技术路线,也为未来跨模态认知与生成一体化的智能系统研发打开了新的想象空间。