小米HySparse架构突破大模型效率瓶颈 KV Cache存储减负80%

AI 资讯10小时前发布 dennis
0

【量子位 2026年2月7日讯】Agent时代大模型的超长上下文效率难题迎来关键突破!小米MiMo大模型团队正式推出混合稀疏注意力架构HySparse,创新采用“少量全注意力+大量稀疏注意力”的混合设计,在49层的80B-A3BMoE模型中仅保留5层全注意力,就能实现KV Cache存储近10倍降低(减负超80%),同时在通用、数学、代码及中文任务中保持甚至提升模型能力,完美兼顾效果与效率,为大模型规模化落地提供全新技术路径。

直击行业痛点 破解稀疏注意力两大核心难题

随着大模型向超长上下文、多轮交互场景演进,稀疏注意力(Sparse Attention)成为提升效率的关键方向,但长期面临两大“拦路虎”。其一,重要Token选择依赖代理信号(固定模式、启发式规则等),这些近似信号无法精准捕捉真实注意力分布,误差在长上下文场景中还会累积,即便引入可学习模块也会增加训练复杂度;其二,现有动态稀疏注意力虽能降低计算开销,但为避免误丢动态变化的重要Token,推理时仍需保留全量KV Cache,显存与带宽瓶颈始终未解。

作为行业常用的稀疏注意力方案,滑动窗口注意力(SWA)通过限制Token注意力视野实现线性级计算复杂度降低,虽能将KV Cache控制在固定规模,但牺牲了长距离信息交互能力。小米MiMo团队正是瞄准这些行业痛点,提出HySparse架构,从设计根源上同时解决选择精度与存储开销两大难题。

创新混合架构 全注意力“掌舵”稀疏层“增效”

HySparse的核心突破在于重构了注意力计算的层级关系,将“Token选择+KV Cache维护”这两个关键任务交给全注意力(Full Attention)层,稀疏注意力层则专注于高效复用与精准计算。架构采用“混合块(hybrid block)”设计,每个块由1层全注意力+N层稀疏注意力组成,形成“少量昂贵但可靠”与“多次廉价且高效”的协同模式。

在混合块内部,全注意力层完成自身计算的同时,会生成最精准的Token重要性索引和KV Cache,后续N层稀疏注意力无需独立决策,直接复用这些核心信息,既避免了代理选择的误差,又彻底消除了稀疏层额外的KV Cache存储开销。这一设计灵感源于学术界的关键观察:相邻层的重要Token高度稳定,且跨层KV Cache共享可在不损伤性能的前提下显著省显存。

为兼顾全局推理与局部建模能力,HySparse的稀疏层内部创新采用双分支结构:块级稀疏注意力分支基于共享KV Cache进行全局稀疏检索,保障长距离信息交互;滑动窗口注意力分支维护默认大小为128的本地窗口KV Cache,确保局部上下文建模精度。两分支输出通过轻量门控(sigmoid gate)融合,实现全局与局部能力的最优平衡。

实测表现亮眼 小参数量模型性能反超

为验证HySparse的有效性,小米团队在7B Dense和80B MoE两种规模模型上,与全注意力(Full-Attn)、混合滑动窗口注意力(Hybrid SWA)架构展开全面对比。实验结果显示,80B MoE模型(49层)仅保留5层全注意力,7B Dense模型(36层)保留9层全注意力,HySparse就能实现接近10倍的KV Cache存储降低,显存占用大幅优化。

在16k和32k上下文长度下,HySparse在多项权威评测中表现突出:7B模型在通用任务总得分达94.1(16k上下文)和89.3(32k上下文),显著超越Hybrid SWA的91.6和84.2;80B MoE模型在16k上下文场景中总得分90.6,不仅远超Hybrid SWA的72.7,更在部分任务上超越全注意力基线(93.6)。

RULER长文测试进一步证实,即便大幅削减全注意力层数量,HySparse仍能稳定保持长距离关键信息访问能力。在中文任务中,其C-Eval和CMMLU评测得分分别达65.0和67.0,展现出对中文场景的良好适配性;代码任务方面,HumanEval评测得分38.4,在同规模模型中处于领先水平。

剑指Agent时代 引领大模型效率革命

HySparse架构的推出,为Agent时代大模型的效率优化提供了全新范式。随着AI应用向多轮交互、长文本处理等复杂场景延伸,KV Cache存储与计算效率已成为制约大模型落地的核心瓶颈,而HySparse通过架构创新实现“效果不降、效率倍增”,有望加速大模型在智能助手、企业级应用等领域的规模化部署。

小米MiMo团队表示,未来将在更大规模模型上进一步验证HySparse的极限潜力,持续探索降低全注意力层数量的可能,让超长上下文建模更高效、更经济。此次技术突破不仅体现了小米在大模型底层架构领域的深厚积累,也为行业树立了效率与效果兼顾的优化标杆,或将引发大模型注意力架构的新一轮创新浪潮。

© 版权声明

相关文章