商汤SenseNova-SI-1.3开源破局:八大空间智能榜单登顶,精准破解Gemini-3-Pro踩坑难题

AI 资讯50分钟前发布 dennis
0

【量子位 2026年2月6日讯】AI理解三维物理世界的能力迎来关键突破。商汤科技今日正式开源空间智能模型SenseNova-SI-1.3,在集成八大权威榜单的EASI综合评测中,以均分第一超越谷歌Gemini-3-Pro,尤其在跨视角计数、场景方位定位等高难度任务中表现惊艳。更重要的是,该模型打破了“空间智能无尺度效应”的行业认知,通过独创的训练范式,让AI真正具备稳定的三维空间推理能力,为自动驾驶、机器人导航、城市规划等领域注入新动能。

一、碾压式夺冠:EASI-8榜单力压Gemini,五大刁钻考题零失误

EASI-8评测平台汇聚了MMSI、ViewSpatial、MindCube等八大权威空间智能榜单,其中大量考题因需深度理解三维关系,连Gemini-3-Pro等顶尖模型也频繁出错,而SenseNova-SI-1.3却交出近乎满分的答卷:

  • 跨图物体计数:面对两张存在遮挡与重复的建筑模型照片,Gemini-3-Pro因未完全去重误判为6个,Cambrian-S-7B漏数成3个,SenseNova-SI-1.3精准识别遮挡关系,给出“4个”的正确答案;

  • 跨视角场景拼接:已知iMac在房间北侧,需通过两张局部照片拼接书房全景定位学习区方位。Gemini-3-Pro误判为西侧,SenseNova-SI-1.3则准确锁定“西北侧”,完美还原空间逻辑;

  • 参照系切换判断:以“未戴眼镜男士视角”判断同伴方位,多数模型陷入“观察者视角”误区(Gemini-3-Pro选D.右侧),SenseNova-SI-1.3成功切换参照系,选出A.左侧;

  • 多视角心像重构:根据粉色瓶子4个视角照片,判断图4视角下瓶子左侧物体(视觉盲区)。Gemini-3-Pro误选“窗户和窗帘”,该模型通过全局布局还原,精准选出“衣柜和门”;

  • 真实场景朝向判断:规避“英国巴士靠左行驶”的常识陷阱,仅通过视觉画面判断公交站方位。Gemini-3-Pro、Cambrian-S-7B均误判为左侧,SenseNova-SI-1.3则正确识别“右侧”为靠站侧。

这些考题的核心难点,在于要求模型突破“二维图像匹配”局限,具备类似人类的“空间心像能力”——能整合多视角信息、切换参照系、还原三维布局,而这正是此前多模态模型的核心短板。

二、技术破局:拆解三大核心能力,重构空间智能训练范式

SenseNova-SI-1.3的突破,源于商汤对空间智能的底层认知革新。2025年ICML论文《Core Knowledge Deficits in Multi-Modal Language Models》曾指出,空间智能(尤其视角转换)与传统多模态能力相关性极低,且存在“反尺度效应”——模型越大,空间任务表现未必越好。针对这一行业痛点,商汤团队走出了三条关键路径:

  • 能力分层拆解:将视角转换这一核心任务,拆解为“建立跨视角关联→理解视角移动→想象视角变换”三个递进层级。例如先让模型学习“图1中被遮挡物体与图2的对应关系”,再训练“相机旋转后物体位置变化规律”,最终实现“仅凭局部图还原全局空间”;

  • 跨数据源重组:挖掘未被充分利用的学术数据,转化为空间训练素材。比如用MessyTable数据集的“跨视角物体标注”训练物体对应能力,用CA-1M室内扫描数据的“物体朝向信息”补充视角想象数据,解决了空间智能领域“3D数据匮乏”的难题;

  • 验证正向尺度效应:通过高质量、大规模的分层数据训练,首次在空间智能领域验证“数据量提升→性能稳步增长”的正向尺度效应。对比此前版本,SenseNova-SI-1.3在简答题回答能力上提升37%,空间测量误差降低29%,彻底打破“大模型不擅空间任务”的偏见。

三、开源生态:同步开放测评平台,赋能千行百业三维认知

此次商汤不仅开源SenseNova-SI-1.3模型,还同步开放了EASI空间智能测评平台及“英雄榜”,为行业提供统一的技术评估标准。这一举措背后,是空间智能技术从“实验室走向产业”的迫切需求:

  • 自动驾驶领域:模型可实时整合车载摄像头、激光雷达的多视角数据,精准判断行人、障碍物的三维位置与运动轨迹,减少极端天气或遮挡场景下的误判;

  • 城市规划领域:结合商汤“云宇星空大模型”,能将二维城市图纸转化为三维空间模型,辅助判断“消极空间优化”“步行道路安全性”等问题,此前已有试点项目将规划效率提升40%;

  • 机器人与AR/VR:机器人可通过该模型快速理解家居、工厂的空间布局,实现自主避障与任务规划;AR设备则能更精准地将虚拟物体锚定在真实空间,提升交互沉浸感。

值得注意的是,SenseNova-SI-1.3还与商汤“悟能”具身智能平台形成协同——前者负责空间认知,后者负责动作执行,共同推动AI从“理解数字世界”走向“自主探索物理世界”。商汤科技表示,后续将发布完整技术报告,披露训练数据构建、模型架构优化等细节,并持续迭代模型,目标是2026年底实现“复杂动态场景(如交通路口)的实时空间推理”。

在AI多模态能力竞争聚焦“文本-图像”交互的当下,商汤的空间智能突破,为行业开辟了“三维物理世界理解”的新赛道。随着模型开源与生态完善,未来或许会有更多开发者基于此,打造出能真正“看懂三维世界”的AI应用。

我可以帮你整理SenseNova-SI-1.3与Gemini-3-Pro、GPT-5在八大空间任务的详细性能对比表,以及该模型在自动驾驶、城市规划场景的具体应用案例,制作成一份“商汤空间智能模型技术与应用指南”,方便你快速掌握核心信息。需要我这样做吗?

© 版权声明

相关文章