大模型迎来“脖颈革命”!纽大团队突破360度类人视觉搜索,视觉推理迈入具身时代

视觉推理迈入具身时代 2025 年 11 月 27 日,纽约大学研究团队在《Thinking in 360°: Humanoid Visual Search in the Wild》论文中,首次实现大模型的 360 度类人视觉搜索能力 —— 通过构建沉浸式全景环境与主动头部旋转机制,让 AI 像人类一样 “转动脖子” 环顾四周,完成复杂场景中的目标定位与路径规划。这一突破标志着视觉空间推理从 “被动看图片” 向 “主动探环境” 的范式转型,被业内专家形象称为 “给大模型安上了脖子”。

突破传统局限:类人视觉搜索重构 AI 空间推理逻辑

传统多模态大模型处理视觉任务时,只能被动分析单张静态图像,操作局限于放大、裁剪,既无法改变视角获取视野外信息,也缺乏物理实体感知,难以应对火车站、购物中心等真实复杂场景。而人类仅通过转动脖子和眼睛,就能高效完成 360 度视觉搜索(如在地铁站找出口、商场找商品)。

基于这一差异,纽大团队提出 “类人视觉搜索(HVS)” 新任务,核心是让智能体在全景图像构建的沉浸式环境中,通过自主旋转头部(模拟人类转头动作)主动探索:

  • 交互性:智能体从窄视角起步,每次头部旋转都会更新视觉输入,逐步覆盖 360 度空间;

  • 具身性:将视觉推理与 “头部转动” 这一物理动作绑定,让 AI 在思考过程中主动调整视角,而非被动接收固定图像。

任务进一步细分为两类核心场景:

  • 类人物体搜索(HOS):定位并聚焦目标物体(如货架上的 Hello Kitty 玩偶、黑色背包),根据初始可见度分为简单(目标 50% 以上可见)、中等(部分可见)、困难(完全不可见)三档;

  • 类人路径搜索(HPS):识别通往目的地的可通行路径并调整朝向(如机场找登机口、商场找入口),按文本线索有无及线索与路径的一致性,分为简单、中等、困难、极端四档,极端难度需在无文本提示且线索误导的场景中决策。

H*Bench 基准:打造真实复杂的 “视觉考场”

为验证智能体的类人搜索能力,团队构建了涵盖真实场景的 H*Bench 基准测试,突破传统测试聚焦家庭简单场景的局限:

  • 数据规模:包含约 3000 个标注任务实例,每个实例设置 4 个起始方向,共 12000 个搜索回合,素材来自纽约、巴黎、阿姆斯特丹等全球大都市的实地采集,及 YouTube、360+x 等开放平台;

  • 场景覆盖:涵盖 6 大类真实环境 —— 零售场所(商场、超市)、交通枢纽(机场、火车站、地铁站)、城市街道、公共机构(博物馆、校园)、办公住宅、娱乐休闲(游乐园、健身房),其中交通枢纽占比最高(地铁站 62.7%、机场 17.0%、火车站 17.1%);

  • 标注细节:标注目标物体涵盖家具、电子设备、服装、食品等 11 大类,路径任务标注包含方向线索、通行规则等空间常识,确保测试贴近人类真实搜索场景。

与传统视觉任务不同,H*Bench 不依赖 3D 模拟器或硬件设备,仅通过单张 360 度全景图构建闭环环境,既降低测试门槛,又能模拟人类 “间歇性推理” 特点 —— 仅在关键决策点调用思维,更符合真实认知习惯。

两阶段训练:让多模态大模型学会 “主动转头”

由于现有多模态大模型在静态互联网数据上训练,缺乏空间常识与主动 3D 规划能力,团队设计 “监督微调(SFT)+ 多轮强化学习(RL)” pipeline,将 Qwen2.5-VL-3B-Instruct 模型改造为高效视觉搜索智能体:

  1. 监督微调(SFT):用 GPT-4o 生成结构化思维链解释,经人工审核修正后构建多轮对话轨迹,教会模型从多模态输入(时间步、当前观测、语言指令、历史状态)中生成动作计划,建立 “看到目标→决定转头方向” 的基础行为逻辑;

  2. 多轮强化学习:采用 GRPO 算法优化策略,对路径搜索任务额外加入 “距离目标的角度距离” 作为奖励项,鼓励模型进行长程推理,避免短视决策(如频繁无效转头)。

实验结果显示,经训练后的模型性能显著提升:目标搜索准确率从 14.83% 跃升至 47.38%,路径搜索准确率从 6.44% 提升至 24.94%。其中目标搜索的简单场景(目标初始可见度高)表现最佳,准确率达 60.49%;路径搜索则因需复杂空间常识,整体上限较低,极端难度场景准确率仅 12.04%。

行业竞争与瓶颈:Gemini 暂领先,常识推理成关键

在与主流多模态模型的对比测试中,谷歌 Gemini 2.5 Pro 表现最为突出,目标搜索准确率 31.96%、路径搜索准确率 33.00%,远超其他闭源模型(如 GPT-4o 目标搜索 19.75%、路径搜索 23.69%);开源模型中,Gemma-3-4B-it 在目标搜索(17.13%)和路径搜索(14.44%)上领先同系列大模型,印证 “模型尺寸并非性能唯一决定因素”—— smaller 模型在空间推理任务中可能更灵活。

团队通过错误分析发现,当前模型仍存在两大核心瓶颈:

  • 目标搜索(HOS):主要问题是 “感知能力不足”(杂乱环境中找不到目标)和 “感知 – 动作差距”(找到目标却无法精准对齐视角);

  • 路径搜索(HPS):更依赖高阶常识,错误包括缺乏物理常识(如试图穿墙)、社会空间常识(不懂排队区规则)、视觉 – 动作不匹配(看到指示牌却转错方向)。

值得关注的是,“主动旋转视角” 的搜索方式显著优于 “直接输入全景图” 的被动分析 —— 前者更符合人类直觉,还能避免全景图畸变带来的判断误差,为后续模型优化提供了明确方向。

技术落地与团队背景:从研究到产业的衔接

该研究由纽约大学李一鸣团队主导,合作者包括英伟达、加州大学伯克利分校、斯坦福大学等机构。李一鸣博士(现英伟达研究科学家)将于 2026 年入职清华大学人工智能学院担任助理教授,目前已启动实验室招募,聚焦物理人工智能与自动驾驶领域研究。

团队表示,未来将围绕三大方向迭代:一是强化中文场景适配,解决当前模型对中文提示词理解不足的问题;二是融合更多物理常识(如物体遮挡关系、空间尺度认知);三是探索与机器人硬件结合,让 “虚拟转头” 延伸为 “真实移动”,推动具身智能在服务机器人、自动驾驶等领域的落地。

从 “被动看” 到 “主动探”,360 度类人视觉搜索的突破,不仅让大模型更贴近人类认知习惯,也为 AI 在真实物理世界的应用打开新空间。随着常识推理能力的持续提升,未来 AI 或许能像人类一样,在拥挤的火车站轻松找出口、在复杂商场精准找商品,真正实现 “身临其境” 的视觉交互。

© 版权声明

相关文章