微软清华联合破解VLM视觉误判难题 一拉一推让AI看图抓准核心证据

AI 资讯10小时前发布 dennis
0

【量子位 2026年2月8日讯】视觉-语言模型(VLM)动辄给出自信却错误的答案,问题竟出在“看错了”而非“想错了”。微软亚洲研究院与清华大学联合提出全新的BiPS双向感知塑形方法,从训练阶段重塑AI的看图逻辑,通过“拉回全量证据+推准关键细节”的双重机制,让模型学会带着问题精准聚焦视觉核心,彻底解决视线错位难题。实验证明,该方法仅用13K小样本微调,就在8大基准测试中实现跨任务性能提升,为构建更可靠的通用视觉理解系统开辟新路径。

视觉误判成VLM通病 传统补救方法弊端显著

如今的VLM虽能流畅完成视觉问答、逻辑推理等任务,却存在一个隐蔽的核心问题:模型常因捕捉错误的视觉证据,得出与事实相悖的答案。人类看图会因问题不同聚焦不同关键信息,问趋势盯曲线、问数值看刻度,而当前VLM的“看”仍停留在简单打标签阶段,只知道图中有什么,却不懂该看哪里,形成“看”与“想”的严重脱节。

为解决这一问题,学界此前多采用推理阶段的视觉提示策略,通过框选、掩码、调用外部工具等方式为模型“指路”,但这类方法存在诸多难以突破的局限。其一,关键视觉线索如折线拐点、医学病灶等往往不规则且弥散,标准框选易要么引入噪声、要么丢失细节;其二,这类提示多为特定任务定制,模型的聚焦能力无法跨任务迁移,换个场景就需重新训练;其三,将视觉聚焦作为推理中的补救步骤,不仅拖慢效率,还会让错误在后续推理中持续放大。

BiPS核心革新 从推理补救转向训练内化

针对传统方法的痛点,微软亚洲研究院与清华大学提出的BiPS(Bi-directional Perceptual Shaping)双向感知塑形方法,实现了根本性的思路转变:不再在推理阶段临时为模型“指路”,而是在训练阶段就让其内化“带着问题看图”的能力,学会自主识别什么是决定答案的正确视觉证据,推理时无需任何额外提示,也能精准聚焦关键区域。

BiPS的核心设计,是摒弃了边界框、掩码、外部工具等传统手段,将推理阶段的视觉提示转化为训练信号,让模型形成本能的关键证据聚焦能力。其创新点在于构建了一套方向相反、粒度互补的双重感知塑形机制,通过“一拉一推”的协同作用,让模型既看全相关证据,又看准核心细节,从表面的视觉关联走向因果一致的证据依赖。

一拉一推双重机制 让AI像人类一样看图

BiPS的“拉”与“推”两个阶段形成递进式的感知训练,层层打磨模型的视觉聚焦能力,让其逐步掌握人类的看图逻辑。

第一阶段的“拉”,核心是让模型“看少但看全”。真实的视觉问答往往依赖分散却环环相扣的证据链,BiPS通过构建证据保留视图,系统性剔除图中的干扰元素,仅保留回答问题所必需的视觉信息,让模型基于这份“信息更少但结构完整”的视图输出与原始图像一致的答案。这一过程将模型从噪声和偏见中拉回,确保其回答始终锚定于完整的视觉证据链,不遗漏任何关键信息。

第二阶段的“推”,核心是让模型“看全更看准”。仅模糊定位相关区域,模型仍可能依赖语言先验或统计偏见作答,因此BiPS引入证据消融视图,精准移除那些能直接决定答案的关键细节,这类改动视觉上微小,却足以颠覆最终答案。此时训练目标反转,模型必须在关键证据消失时拒绝原答案,通过这种反事实约束,迫使模型识别出不可替代的细粒度线索,彻底摒弃绕过关键证据的“替代推理”。

图表作为训练核心 小样本实现跨任务能力迁移

在BiPS的训练体系中,图表成为了最佳的训练载体。图表包含多子图、细折线、小标记、精确刻度等元素,构成了高密度、高信息量的视觉场景,其微小元素往往是解题关键,能为模型提供丰富的细粒度感知训练材料。更重要的是,图表中的视觉证据高度可控,每个元素都可程序化地添加、移除或遮蔽,能精准验证其对答案的影响,从而完美构建“证据保留”与“证据消融”的对照视图,成为模型训练的理想实验场。

值得关注的是,BiPS展现出了极高的训练效率和泛化能力,仅用13K条图表样本对基础模型进行微调,且无需人工标注、不针对不同任务定制工具或模板,训练目标仅为让模型学会“问题指哪,就看哪”的通用视觉逻辑。实验结果显示,以Qwen2.5-VL-7B为基础模型,BiPS在图表理解、数理逻辑推理、通用视觉问答等8个不同评测基准上均实现了一致且显著的性能提升,平均准确率提升7.3%,且提升效果跨越数据分布和任务类型。

即便在推理能力已高度强化的Qwen3-VL-8B-Thinking模型上,BiPS的优化效果依然明显,在CharXiv图表理解、MathVision数理推理、MMStar通用视觉问答等任务中,准确率均实现不同幅度的提升。这一结果充分证明,BiPS让模型学到的并非简单的图表解读技巧,而是一种可跨任务迁移的“看对地方”的通用视觉能力,这也是该方法最核心的价值所在。

迈向通用视觉智能 为VLM发展提供新方向

BiPS的提出和落地,不仅解决了VLM视觉误判的行业痛点,更在技术层面为视觉-语言模型的发展提供了全新思路。真正的视觉智能,从来不是简单的“看到”所有元素,而是在复杂的视觉信息中,精准聚焦与问题相关的关键证据,BiPS正是让模型实现了这一核心能力的跨越,使其视觉注意力从被动、均匀的扫视,转变为主动、问题驱动的精准聚焦。

从13K小样本的高效训练,到跨任务、跨场景的能力迁移,BiPS展现出了稳定且通用的训练范式,为后续通用视觉理解系统的构建奠定了重要基础。在AI大模型向通用智能不断演进的过程中,让模型的“眼睛”真正看懂问题、抓准核心,无疑是关键的一步,而微软清华联合研发的BiPS,正是在这一核心方向上实现的重要突破。

© 版权声明

相关文章