从模块拼接到原生融合!NEO架构打破多模态AI天花板,印证Ilya技术预言

AI 资讯1小时前发布 dennis
0

当OpenAI联合创始人Ilya Sutskever在公开演讲中抛出“AI行业需告别规模堆砌,转向架构创新”的论断时,业界还在猜测下一代技术突破的方向。而商汤科技与南洋理工大学联合研发的全球首个原生多模态架构NEO的横空出世,不仅用技术实践回应了这一预言,更标志着多模态AI正式告别“视觉+语言”的模块拼接时代,迈入原生融合的新阶段。

长期以来,GPT-4V、Claude 3.5等主流多模态模型始终未能突破“模块化拼接”的技术桎梏。这类模型通常将预训练好的视觉编码器(如ViT)通过简单投影层嫁接到语言模型上,就像用“胶水”粘合两个独立部件。这种模式下,视觉与语言信息始终处于割裂状态:训练时需经历“分别预训练-对齐适配-指令微调”三步复杂流程,耗时耗力且易引入误差;应用中则常出现“看图说不对”“理解有偏差”等问题,比如描述复杂图表时混淆图例数据,解读空间指令时搞错物体方位,陷入效率低、融合差、能力弱的三重困境。

NEO架构的革命性突破,在于从底层重构了多模态模型的技术逻辑。它摒弃了传统的模块拼接思路,打造出一个视觉与语言“从诞生就血脉相连”的统一模型——没有独立的视觉模块或语言模块,只有一个专为多模态设计的“统一大脑”。这一创新源于三大核心原生技术的协同支撑:

原生图块嵌入技术让AI拥有“高清视觉感知”。不同于传统模型将图像切割成固定尺寸方块再处理、导致细节丢失的做法,NEO通过两层卷积神经网络构建轻量级图块嵌入层,直接从像素出发生成连续的高保真视觉表征。就像人类用眼睛直接观察光影纹理,而非对着马赛克图像猜测,这一设计让模型能精准捕捉图像边缘、纹理等细微特征,突破了主流模型的图像建模瓶颈。

原生三维旋转位置编码(Native-RoPE)则为多模态信息搭建了“智能坐标系”。针对文本(一维)、图像(二维)、视频(三维)的不同数据结构,NEO为时间(T)、高度(H)、宽度(W)三个维度分配差异化频率:视觉维度用高频刻画空间细节,文本维度兼顾高低频平衡局部与长距离依赖。遇到纯文本输入时,图像相关维度索引自动置零,完全不影响语言处理性能,还为后续扩展到视频理解、3D交互等场景预留了技术接口。

原生多头注意力机制实现“视觉与语言协同思考”。传统模型中,语言模型采用因果注意力(只能看前文),视觉编码器采用双向注意力(看全图),两者难以协同。NEO则在统一框架内让两种注意力模式并存:处理文本时遵循自回归因果注意力,处理图像时启用全双向注意力,使图像块间可自由交互关联。这种设计让模型能精准区分“猫在盒子上”与“猫在盒子里”的空间差异,大幅提升图文交错推理能力。

更令人惊叹的是NEO的超高数据效率。它仅用3.9亿个图像文本对(同类顶级模型数据量的十分之一)完成训练,却在多项权威评测中追平甚至超越Qwen2-VL、InternVL3等旗舰模型。在AI2D(图像理解)、DocVQA(文档问答)、ChartQA(图表分析)等任务中,2B参数规模的NEO准确率已接近8B参数的模块化模型;在MMMU(多学科理解)、MMBench(综合能力)等基准测试中,其综合性能更是超越其他原生多模态模型,真正实现“用更少数据,做更强模型”。

值得关注的是,NEO在中小参数规模(2B-8B)下展现出的高性价比,为多模态AI的终端化落地开辟了新路径。以往,强大的多模态能力仅能依赖云端大模型,而NEO凭借高效架构设计,在手机、机器人、智能汽车等边缘设备上也能流畅运行,推理成本较同类模型降低60%以上。这意味着,未来普通用户在手机上就能调用高精度多模态能力,工业场景中机器人也能通过终端AI实现复杂视觉任务处理。

目前,商汤科技已开源基于NEO架构的2B与9B两种规格模型,释放出共建原生多模态生态的信号。这一举措不仅降低了中小团队的技术门槛,更有望推动整个行业从模块拼接范式向原生架构迁移。正如Ilya所预言,AI的下一站竞争力不在于规模大小,而在于架构是否“聪明”。NEO的出现,不仅是中国团队对全球AI技术的关键贡献,更清晰指明了多模态AI通往通用智能的新路径——当视觉与语言真正实现原生融合,AI才能更懂物理世界,更贴近人类的认知方式,为具身智能、智能交互等更高阶应用奠定坚实基础。

© 版权声明

相关文章