端侧百万上下文终落地!面壁SALA架构让9B模型5090显卡流畅运行

AI 资讯10小时前发布 dennis
0

【量子位 2026年2月11日讯】长文本处理不再是云端模型的专属特权!面壁智能今日正式发布全球首创稀疏-线性混合注意力架构SALA(Sparse Attention-Linear Attention),基于该架构的开源模型MiniCPM-SALA,首次实现9B参数端侧模型在消费级RTX 5090显卡上流畅处理百万Token长文本,在性能无损前提下将长上下文推理效率提升2倍以上,为端侧智能体落地扫清核心障碍。

SALA架构革命:破解长上下文三大行业痛点

传统Transformer架构的全注意力机制因O(N²)计算复杂度,长期受困于长文本处理时的计算冗余、显存爆炸与精度衰减问题。面壁智能创新性提出“75%线性注意力+25%稀疏注意力”的混合方案,通过三重核心设计实现突破:

双注意力协同:兼顾效率与精度

线性注意力模块采用Lightning Attention作为核心算子,负责快速建模长文本全局信息,计算复杂度降至O(N),同时借助QK-normalization与输出门控机制,避免百万级上下文训练中的数值不稳定问题;稀疏注意力模块搭载InfLLM v2,可按需筛选关键KV对,精准捕捉局部关键信息,且能根据文本长度自动切换稀疏/稠密模式,实现长短文本无缝适配。

混合位置编码:突破长度外推瓶颈

创新HyPE(Hybrid Position Encoding)混合位置编码机制,线性层保留RoPE编码以维持中短文本性能稳定性,稀疏层采用NoPE无位置编码设计,使KV-Cache与位置信息解耦,彻底解决长距离信息衰减难题,让模型在百万Token长度下仍能高效检索极远信息。

低成本迁移:复用现有模型资产

通过Transformer-to-Hybrid(HALO)迁移方法,仅需四步即可将传统全注意力模型转换为混合架构:参数转换、隐状态对齐、层选择与知识蒸馏,无需从零训练,大幅降低开发者使用门槛。

端侧性能实测:消费级硬件跑通百万上下文

MiniCPM-SALA的落地表现堪称惊艳。在RTX 5090显卡上,该模型成功跑通1M Token长文本推理,KV Cache占用控制在6GB以内,无需依赖投机推理等额外加速手段,在256K序列长度下推理速度较同尺寸开源模型提升2倍以上。

当序列长度拓展至512K甚至1M时,多数同级别模型已因显存瓶颈无法运行,而MiniCPM-SALA仍能保持稳定性能,语义理解精度无明显衰减,完美适配跨文档分析、长剧本创作、行业知识库问答等复杂场景。这一突破让端侧设备首次具备处理百万字级长文本的能力,为本地隐私计算、离线智能助手等场景提供可能。

生态赋能:70万奖金大赛推动技术落地

为加速SALA架构的产业落地,面壁智能联合OpenBMB社区、SGLang与NVIDIA发起2026稀疏算子加速大奖赛(SOAR),总奖池超70万元人民币,最高单项奖金达62万元。大赛聚焦稀疏算子融合、编译优化等底层技术挑战,邀请全球开发者共同探索MiniCPM-SALA在百万Token推理场景下的性能极限,目标实现消费级GPU上“百万Token推理+KV Cache<6GB”的极致效率。

大赛赛程从2月11日持续至5月29日,设置周榜竞争、半决赛与总决赛三个阶段,开发者可通过官方平台提交优化方案,获奖成果将同步开源,推动端侧长文本处理技术生态共建。

端侧智能新范式:上下文成为核心竞争力

面壁智能的技术突破背后,是对端侧智能体发展趋势的深刻洞察。随着AI行业竞争从参数量比拼转向上下文处理能力较量,能否本地处理通讯录、聊天记录、行业文档等海量私密数据,成为端侧产品的核心竞争力。

MiniCPM-SALA的开源发布,不仅为开发者提供了高性能长上下文模型底座,更通过“架构创新+开源生态+大赛赋能”的三位一体模式,降低端侧智能体部署成本。目前,模型权重、技术报告已在GitHub、Hugging Face、ModelScope等平台同步开放,开发者可直接基于该模型构建本地长文本处理应用。

业内专家指出,SALA架构的出现标志着端侧大模型进入“长上下文时代”。随着技术的普及,个人智能助手、车载AI、边缘计算设备等将具备更强的本地处理能力,推动AI应用从云端依赖转向“端云协同”新范式,为隐私计算、工业质检、智能座舱等领域带来革命性变化。

© 版权声明

相关文章