大模型学会“高维找茬”!中国联通新研究攻克长文本图像检索难题,登AAAI 2026 Oral

2025年12月1日,中国联通数据科学与人工智能研究院团队传来重磅消息:其研发的HiMo – CLIP模型在长文本图像检索领域取得突破性进展,成功解决了传统模型“描述越详细、匹配分数越低”的行业痛点,并以Oral(口头报告)形式入选AAAI 2026。该模型通过创新的“语义层级建模”与“单调性约束”,让大模型像“高维找茬高手”般精准捕捉文本细节与核心语义的关联,在长文本、组合性文本检索任务中刷新SOTA(当前最佳)成绩,同时兼顾短文本检索性能,为多模态理解任务开辟新路径。

行业痛点:长文本描述反而拖垮检索精度

在多模态检索领域,“语义单调性”是公认的理想特性——即文字描述越详细、包含的图像特征信息越完整,图文匹配分数理应越高。然而,以经典的CLIP模型为代表的主流方案,却长期受困于“长文本失效”问题:当文本从简短描述扩展为包含多个细节的长句时,模型对齐分数不升反降,甚至出现“细节越多、匹配越差”的反常现象。

以“白色福特F250皮卡”图像检索为例,当文本从“正面视图的 lifted 款白色福特F250”,逐步补充“超大轮胎、可见车轴、驾驶员侧车门开启、深色车窗”等细节后,传统CLIP模型的对齐分数从初始的较高值持续下降,Long – CLIP、TULIP等针对长文本优化的模型也未能幸免。中国联通团队分析指出,核心症结在于这些模型将文本视为“扁平序列”,忽略了语言内在的层级结构,导致细节信息淹没核心语义,或无法从复杂语境中筛选出最具区分度的特征。

这一痛点在实际应用中影响深远。在电商商品检索(需匹配“品牌 + 型号 + 材质 + 功能”等多维度描述)、安防图像溯源(需结合“场景 + 物体 + 特征”详细文本)、文档图像分析(需关联长段落文字与图表)等场景中,长文本检索精度不足,直接制约了多模态技术的落地效果。

技术突破:HiMo – CLIP的“高维找茬”秘诀

为破解长文本检索难题,中国联通团队提出HiMo – CLIP框架,核心在于两大创新组件:层级分解模块(HiDe)与单调性感知对比损失(MoLo),让模型具备动态提取关键特征、兼顾全局与细节的能力。

HiDe模块如同“智能找茬助手”,能根据批量数据(Batch)的统计特征,动态定位文本中的“核心差异点”。其原理是利用PCA(主成分分析)技术,分析同一批次内不同文本的特征分布,自动识别出当前语境下最具区分度的语义成分。例如,当检索“戴墨镜的柯基在沙滩奔跑”的图像时:若批次内其他图像多为“沙滩场景”,HiDe会优先提取“柯基”这一独特物体特征;若批次内以“柯基”图像为主,则自动聚焦“戴墨镜”“沙滩环境”等差异化属性。这种“由邻居决定重点”的自适应机制,无需人工定义关键词,就能精准捕捉文本中的“高维差异点”。

MoLo损失函数则承担“平衡全局与细节”的角色,通过双目标约束确保模型既对齐完整文本,又精准匹配关键语义成分。其公式设计为“MoLo = InfoNCE(f1, feat) + λ*InfoNCE(f2, feat)”,其中f1代表完整文本特征,f2代表HiDe提取的核心语义成分,λ为权重系数。这一设计强制模型同时满足两个条件:一是整体文本与图像全局对齐,二是核心细节与图像关键特征对齐,从而实现“描述越详细、匹配越精准”的语义单调性。

值得一提的是,HiMo – CLIP采用“即插即用”设计,无需修改现有模型的编码器结构,可直接集成到CLIP、Long – CLIP等主流框架中,大幅降低了技术落地的适配成本。

实验验证:100万数据击败100亿数据方案,长短文本通吃

中国联通团队在Urban1k、Docci、Long – DCI等长文本检索基准,以及Flickr30k、COCO等短文本基准上,对HiMo – CLIP进行了全面测试,结果显著优于现有方案。更令人瞩目的是,该模型仅使用100万训练数据,就击败了采用100亿数据训练的SigLIP、400亿数据训练的MetaCLIP等大算力方案,展现出极高的“数据效率”。

在长文本检索任务中,基于ViT – L/14骨干网络的HiMo – CLIP,在Urban1k数据集上实现93.0/93.1(图像到文本/文本到图像)的检索精度,较传统CLIP提升近25个百分点,较同数据量的FineLIP模型提升0.7 – 2.9个百分点;在Docci数据集上,其精度达82.4/84.4,远超Long – CLIP的66.5/78.6。

短文本检索性能同样亮眼。在COCO数据集上,HiMo – CLIP的文本到图像检索精度达47.2,超越SigLIP(47.2持平)与Action – CLIP(44.1);在Flickr30k数据集上,图像到文本精度达92.5,较CLIP提升6.4个百分点。

为进一步验证语义单调性,团队还构建了深度层级数据集HiMo – Docci。实验显示,HiMo – CLIP的单调性相关系数达0.88,远高于对比模型(最高仅0.6),随着文本描述从1段扩展到5段,其对齐分数呈现稳定上升趋势,完美符合人类认知逻辑。

行业意义:多模态对齐迈向“结构化理解”

HiMo – CLIP的突破,不仅解决了长文本图像检索的技术痛点,更推动多模态对齐从“扁平匹配”向“结构化理解”升级。其创新点在于:首次将“语义层级”与“单调性”纳入视觉 – 语言对齐框架,让模型的理解逻辑更贴近人类认知,为复杂多模态任务(如多轮图文对话、跨模态内容生成、智能文档分析)提供了核心技术支撑。

目前,中国联通团队已开源HiMo – CLIP的代码与模型(GitHub地址:https://github.com/UnicomAI/HiMo – CLIP),并计划在电商、安防、政企文档处理等业务中落地应用。“未来,我们将进一步扩展模型的多语言支持能力,探索在视频 – 文本检索、3D点云 – 文本匹配等更复杂场景的应用。”团队负责人表示。

业内专家评价,HiMo – CLIP的研究成果为多模态领域提供了新的技术范式——通过挖掘语言的内在结构与统计特征,而非单纯依赖算力与数据规模,就能实现性能突破。这一思路,或将为资源受限场景下的多模态技术发展提供重要参考。

© 版权声明

相关文章