不造芯片造“超感知”!谢赛宁牵头、李飞飞LeCun站台,寒武纪模型突破AI空间认知瓶颈

AI 资讯20小时前发布 dennis
0

2025 年 11 月,由谢赛宁牵头,李飞飞、Yann LeCun 站台支持的 “寒武纪” 项目(Cambrian)在 AI 圈引发热议。不同于同名芯片公司,这个聚焦多模态智能的项目不走 “堆参数、拼数据” 的主流路线,而是以 “超感知” 技术为核心,打造能真正理解空间关系、记忆动态场景的视频大模型家族 Cambrian-S,一举拿下短视频空间推理任务 SOTA,破解了主流模型 “看图说话却不懂场景” 的行业痛点。

“寒武纪” 的诞生源于团队对现有多模态模型的深刻反思。在谢赛宁看来,当前多数多模态模型本质上是将图像信息转化为文字后再处理,如同人只看照片说明却未亲临场景,缺乏对真实世界的感知能力。为此,项目提出 “超感知” 核心理念 —— 并非依赖高端传感器,而是让数字生命体像人类一样,通过连续数据流吸收信息、体验世界,理解物体位置关系、预判动态变化,这也是构建超级智能的前提。

基于这一理念,团队将研究重点锁定视频空间超感知,先后解决了 “如何测评空间感知能力” 和 “如何训练空间感知能力” 两大关键问题。首先推出 VSI-SUPER 基准测试,包含长时程空间记忆(VSR)和持续计数(VSC)两大任务:前者要求模型观看数小时室内漫游视频后回忆异常物体位置,后者需在长视频中精准统计特定物体总数。测试结果显示,Gemini-Live、GPT-Realtime 等商业模型在 10 分钟视频任务中准确率不足 15%,120 分钟视频更是完全失忆,凸显了行业短板。

为给模型提供高质量训练数据,团队构建了包含 59 万条样本的 VSI-590K 数据集,涵盖真实与模拟空间场景,重点标注物体位置、动态变化等关键信息,形成专属 “空间感知教材”。在此基础上,Cambrian-S 模型家族正式亮相,参数规模从 0.5B 到 7B,通过 “预测下一帧” 的训练机制,让模型用意外度识别关键信息,实现对超长视频的空间理解与任务处理。

实测数据印证了技术突破:Cambrian-S 在短视频空间推理任务中表现亮眼,7B 版本相关核心指标达 67.5,远超同类开源模型;在 VSI-SUPER 基准测试中,空间记忆准确率比开源模型提升 30% 以上,部分任务性能超越商业模型。更值得关注的是,其预测感知模块能有效控制 GPU 内存消耗,即便处理 240 分钟长视频也不会出现内存溢出,解决了主流模型处理超长视频时的性能瓶颈。

回溯项目发展,“寒武纪” 的技术积累并非一蹴而就。2024 年 6 月,团队推出 Cambrian-1,通过测评 20 多种视觉编码器、设计空间视觉聚合器 SVA、构建 700 万条高质量视觉指令数据集、打造 CV-Bench 基准测试等五大突破,为后续研究奠定基础。此次 Cambrian-S 的成功,正是团队放弃 “规模竞赛”、深耕核心能力的必然结果。

目前,Cambrian-S 模型家族已展现出广泛应用潜力,不仅能精准理解 “人从门口走到沙发旁拿起书” 这类动态场景的空间关系,还兼顾通用视频与图像理解能力。项目核心团队汇聚了多方力量:纽约大学博士生 Shusheng Yang(曾参与 Qwen 模型开发)主导项目执行,香港大学博士 Jihan Yang 聚焦多模态推理研究,本科生黄品志、卡内基梅隆大学硕士 Ellis Brown 等成员各有专长,再加上李飞飞、LeCun 的学术指导,形成强大研发合力。

在 AI 追求 “超级智能” 的赛道上,“寒武纪” 项目以 “超感知” 开辟了全新路径。正如 LeCun 所支持的理念 ——LLMs 在推理上存在天然短板,而空间感知与动态记忆或许是突破的关键。随着 Cambrian-S 模型的开源与迭代,其技术思路或将重塑多模态模型的发展方向,让 AI 从 “读懂文字” 真正走向 “读懂世界”。

© 版权声明

相关文章