商汤开源SenseNova-MARS:多模态搜索推理破纪录,8B_32B双版本碾压GPT-5.2

【量子位 2026年1月31日讯】多模态AI领域迎来“执行型选手”。商汤科技正式开源多模态自主推理模型SenseNova-MARS,以8B轻量版、32B高精度版双版本形态,在多模态搜索与推理核心基准测试中斩获69.74分,超越Gemini-3-Pro(69.06分)、GPT-5.2(67.64分)等国际顶流闭源模型。作为全球首个支持动态视觉推理与图文搜索深度融合的Agentic VLM模型,它能自主规划步骤、调用工具,完成“细节识别+信息检索+逻辑推理”全闭环任务,所有模型权重、代码及数据集已全面开源,为开发者与企业提供免费且高性能的多模态解决方案。

从赛事照片微小Logo识别,到跨模态多步复杂计算,SenseNova-MARS的突破不仅刷新多模态模型性能天花板,更打破“闭源模型垄断高阶能力”的行业格局,推动多模态AI从“理解”走向“执行”。

一、性能碾压:多榜单登顶,细节识别能力冠绝行业

SenseNova-MARS在多模态搜索与推理的六大权威基准测试中全面领跑,尤其在高清细节、跨领域检索等难点场景优势显著,展现出“以开源破闭源”的硬实力。

1. 核心基准测试:69.74分超越国际顶流

在覆盖图文搜索、视觉问答、信息检索的综合评测中,32B版本以69.74分的平均成绩,力压Gemini-3-Pro(69.06分)与GPT-5.2(67.64分),关键单项表现尤为突出:

  • MMSearch(图文搜索核心榜):以74.27分登顶,远超GPT-5.2的66.08分,能精准匹配“文本描述-图像细节”的对应关系,例如根据“红色赛车服左臂白色Logo”快速定位目标图像;

  • HR-MMSearch(高清细节搜索榜):54.43分的成绩显著拉开与竞品差距,该测试采用305张2025年最新4K超高清图,问题均针对占比不足5%的微小细节(如设备小字标识、场景小标志),需调用图像裁剪工具才能识别,SenseNova-MARS的细节捕捉能力远超传统多模态模型;

  • FVQA(视觉问答榜):72.61分的成绩超越Gemini-3-Pro的59.22分,面对“根据产品图查参数”“从赛事图推背景信息”等任务,能自主关联视觉信息与文本知识,无需人工干预。

2. 复杂场景实测:多工具协同破解“高难度任务”

不同于传统模型“只会理解、不会执行”的局限,SenseNova-MARS自带图像裁剪、图像搜索、文本搜索三大核心工具,可自主规划步骤完成复杂任务:

  • 赛事分析场景:识别赛车服左下角占比3%的黑色Logo(卡斯托尔Castore),调用文本搜索确认其2015年成立,再通过图像搜索匹配车手为马克斯·维斯塔潘(1997年出生),最终自动计算出“公司成立年份-车手出生年份=18”的结果,全程无人工介入;

  • 产品参数检索场景:从汽车外观图中识别车型为奔驰G580,调用文本搜索获取“配备4个独立电动机”的关键参数,响应速度比人工检索快10倍;

  • 跨模态多步计算场景:处理“体育场启用年份-企业成立年份+收购年份”的复杂问题,先通过图像搜索确认体育场为TDECU(2014年启用),裁剪识别黑色背景白色Logo为日产(1933年成立),再定位红色广告牌白色Logo为西特吉克(2013年收购帕洛阿尔托企业),最终自动计算“2014-1933+2013=2094”,步骤衔接流畅无卡顿。

二、技术突破:双阶段训练+闭环推理,让AI学会“自主思考”

SenseNova-MARS的“执行能力”源于底层技术创新,通过解决多模态模型“训练数据稀缺”“推理不稳定”“工具调用机械”三大痛点,构建起“能规划、会协作、少幻觉”的自主推理体系。

1. 自动化数据合成:解决“训练素材少”难题

针对跨模态多跳推理训练数据稀缺的行业痛点,商汤创新研发多模智能体自动化数据合成引擎:

  • 采用“细粒度视觉锚点+多跳深度关联检索”机制,从海量网页、图像中动态挖掘跨模态实体逻辑,例如自动关联“产品图-参数表-企业背景”的多跳关系;

  • 引入闭环自洽性校验,通过“生成结果反推前提”的方式剔除幻觉数据,确保每一条训练数据都具备严密逻辑链条,最终构建出百万级高复杂度多跳推理数据集,为模型打下扎实基础。

2. 双阶段训练+BN-GSPO算法:保障“推理稳”与“进步快”

模型采用“基础学习+强化实战”双阶段训练模式,配合创新BN-GSPO算法,避免“偏科”与“训练震荡”:

  • 第一阶段(打基础):用标注“工具选择+步骤逻辑”的高难度案例训练,让模型掌握“何时用图像裁剪、何时用文本搜索”的基础逻辑,例如面对“微小细节识别”任务时,自动优先调用裁剪工具;

  • 第二阶段(练实战):通过强化学习让模型在实战中积累经验,做对决策(选对工具、步骤合理)时给予奖励,做错时调整策略;同时引入BN-GSPO算法,平滑工具调用返回分布的波动,确保模型处理简单任务(如单图识别)时不“轻敌”,应对复杂任务(如多步计算)时不“卡顿”,训练收敛速度提升30%。

3. 动态视觉推理:打破“工具调用机械”局限

传统多模态模型工具调用多为“固定流程”,而SenseNova-MARS通过动态视觉推理实现“灵活协作”:

  • 能根据实时反馈调整工具使用顺序,例如识别模糊Logo时,先调用图像裁剪放大,若仍无法确认则自动触发图像搜索;

  • 支持“多工具并行调用”,例如在分析产品图时,同步进行“图像裁剪(看细节)+文本搜索(查参数)”,推理效率提升50%,避免“单一工具等待”的延迟问题。

三、开源价值:全链路开放,推动多模态AI产业化

商汤此次并非简单开源模型权重,而是将“模型+代码+数据集+技术报告”全链路开放,彻底降低多模态自主推理技术的应用门槛,为行业带来三重核心价值。

1. 技术普惠:给开发者“高阶工具包”

SenseNova-MARS的8B轻量版仅需16GB显存即可运行,32B版支持分布式部署,适配从PC端到服务器的全场景需求:

2. 打破垄断:开源模型也有“高阶能力”

此前,具备自主规划、多工具协作的Agentic VLM模型多为闭源(如GPT-4o、Gemini-3-Pro),普通开发者难以接触。SenseNova-MARS的开源,首次将“动态视觉推理+图文搜索融合”能力开放给全球社区:

  • 在HR-MMSearch高清细节测试中,其8B轻量版成绩(41.64分)已超越GPT-4o-mini(26.23分),32B版(54.43分)更是远超Gemini-3-Flash(41.64分),证明开源模型也能具备闭源级高阶能力;

  • 开发者可基于开源代码优化工具调用策略、拓展模态支持(如加入语音输入),推动多模态技术快速迭代。

3. 赋能产业:从“实验室”到“落地场景”

SenseNova-MARS的自主执行能力,可直接解决多个行业的实际痛点,加速AI落地:

  • 科研领域:自动从论文配图、实验数据图中提取关键信息,验证研究假设,例如识别“显微镜图像中的细胞数量”并关联文献数据;

  • 传媒领域:快速处理赛事、展会照片,自动标注Logo、人物、时间等信息,生成图文报道素材,减少人工整理工作量;

  • 金融领域:从企业宣传图、产品手册中提取产品参数、企业标识,关联工商信息、财报数据,辅助行业分析与风险评估。

四、行业意义:国产AI从“跟跑”到“领跑”的关键一步

SenseNova-MARS的发布与开源,不仅是商汤多模态技术的一次突破,更标志着国产AI在多模态领域实现从“跟跑”到“领跑”的跨越:

  • 技术层面:填补开源领域“动态视觉推理与图文搜索深度融合”的空白,其双阶段训练、BN-GSPO算法等创新,为多模态模型研发提供可复用的技术范式;

  • 生态层面:吸引全球开发者参与迭代,推动形成“开源协作-场景落地-技术反哺”的良性循环,提升国产AI在全球多模态领域的话语权;

  • 产业层面:降低中小企业使用高阶多模态技术的成本,无需依赖昂贵闭源API,即可开发出具备自主执行能力的AI应用,助力千行万业智能化转型。

商汤科技表示,未来将持续迭代SenseNova-MARS的工具库与推理能力,计划新增语音交互、视频分析等模态支持,同时依托“日日新SenseNova”大模型体系,将多模态自主推理能力融入医疗、自动驾驶、工业等垂直场景,让AI真正成为“能动手解决问题”的生产力工具。

要不要我帮你整理一份SenseNova-MARS快速上手指南,详细拆解模型下载部署、工具调用逻辑自定义、典型场景(如赛事分析、产品检索)的实操步骤?

© 版权声明

相关文章