-5.1 登顶全球冠军 2025 年 11 月 26 日,第三方空间推理基准测试 SpatialBench 最新榜单揭晓,阿里千问旗下两款视觉理解模型 Qwen3-VL、Qwen2.5-VL 表现惊艳,分别以 13.5 分、12.9 分斩获冠亚军,大幅领先谷歌 Gemini 3.0 Pro(9.6 分)、OpenAI GPT-5.1(7.5 分)及 Claude Sonnet 4.5 等国际顶尖模型,成为全球首个在空间推理领域超越主流海外大模型的国产多模态模型,为具身智能落地奠定关键技术基础。
SpatialBench 榜单破局:国产模型首次领跑空间推理
SpatialBench 是近年来 AI 社区公认的空间推理权威基准测试,聚焦多模态模型在 2D/3D 空间感知、结构分析、路径规划等核心能力的评估,被视为衡量 “具身智能” 进展的关键指标 —— 毕竟未来 AI 要在物理世界实现自动化推理(如机器人操作、工程设计),必须先掌握复杂的空间逻辑。
此次榜单中,阿里千问的表现打破了海外模型在高端多模态领域的垄断:Qwen3-VL-235B 以 13.5 分的绝对优势位居第一,Qwen2.5-VL-72B 紧随其后,两者均远超 Gemini 3.0 Pro(9.6 分)、GPT-5.1(7.5 分)等竞品。值得注意的是,这两款模型均为阿里开源成果 ——Qwen2.5-VL 于 2024 年开源,Qwen3-VL 是 2025 年推出的新一代模型,其开源属性让全球开发者得以基于顶尖空间推理能力进行二次创新,推动整个领域技术迭代。
不过需客观看待的是,当前 AI 大模型的空间推理能力与人类仍有显著差距:人类基准线约 80 分,可熟练处理电路分析、CAD 工程、分子生物学等复杂场景,而现有模型暂无法完全自动化完成此类高难度任务,此次千问的突破更像是 “从追赶到领跑” 的起点,而非终点。
Qwen3-VL 核心能力:从 “视觉感知” 到 “空间操控” 的全面升级
作为此次登顶的核心模型,Qwen3-VL 在视觉感知与多模态推理领域实现多项重大突破,不仅在 SpatialBench 榜单中表现亮眼,在 32 项核心能力测评中也全面超越 Gemini 2.5-Pro 与 GPT-5,其关键优势集中在三大维度:
1. 空间关系理解更精准
Qwen3-VL 具备强大的多目标识别与空间定位能力,能精准判断物体方位、视角变化及遮挡关系。例如在用户测试中,面对密集排列的 “出租车” 图像,模型可快速计数并标注每个目标的位置;在机器人抓取任务中,能基于单张图像判断远处苹果的空间坐标,辅助机械臂实现精准抓取,解决了传统模型 “看得到却抓不准” 的痛点。
2. 工具调用与视觉编程能力突出
不同于传统模型仅能 “看图说话”,Qwen3-VL 可主动调用抠图、搜索等工具完成 “带图推理”—— 例如用户上传一张产品设计草图,模型能先抠取关键部件,再搜索相似设计方案并生成对比分析;更令人惊艳的是其 “视觉编程” 能力,仅通过一段小游戏视频或一张流程草图,就能自动生成对应的代码逻辑,大幅降低编程门槛。
3. 3D 检测能力专项强化
针对空间推理的核心需求,Qwen3-VL 专门优化了 3D 感知模块,能更好地处理三维空间中的物体结构与位置关系。无论是分析建筑图纸中的立体结构,还是判断机器人工作场景中的物体堆叠情况,模型都能输出精准的空间解析结果,为具身智能(如服务机器人、工业机械臂)的落地提供关键技术支撑。
开源生态加持:多版本覆盖,成开发者首选模型
为推动技术普惠,阿里千问已针对 Qwen3-VL 开放全系列版本,涵盖 2B、4B、8B、32B 等密集模型,以及 30B-A3B、235B-A22B 等混合专家(MoE)模型,每个版本均提供 “指令版”(适配对话交互)与 “推理版”(侧重复杂任务),满足企业级应用、个人开发、科研实验等不同场景需求。
目前,Qwen3-VL 已成为全球最受欢迎的开源视觉理解模型之一,开发者可基于其进行机器人控制、自动驾驶感知、工业质检等场景的二次开发;普通用户也能在千问 APP 中免费体验模型能力,例如上传图片进行空间分析、设计草图生成等操作,直观感受顶尖空间推理技术的魅力。
从 SpatialBench 榜单登顶,到开源生态的持续完善,阿里千问正以技术突破推动国产多模态模型走向全球前沿。随着空间推理能力的不断升级,未来 Qwen3-VL 有望在机器人、工程设计、智能驾驶等领域发挥更大价值,加速具身智能从实验室走向真实应用场景。