【量子位 2025年12月23日讯】大模型推理领域再添“软硬协同”新标杆!12月20日,在杭州举办的SGLang AI金融π对活动上,SGLang推理引擎正式宣布将昇腾纳入原生支持后端并合并至主仓库。这意味着DeepSeek、Qwen、GLM、Kimi等主流模型可在昇腾平台“零代码拉起”——无需调整参数、不依赖额外插件,同时借助HiCache缓存体系、Mooncake权重更新机制等优化,在金融Agent等高要求场景实现高吞吐、低延迟运行,为国产算力生态的推理效率突破提供关键支撑。
此次合作不仅覆盖模型适配、性能优化全链路,更标志着昇腾从“硬件算力供给者”升级为“推理系统核心参与者”,与SGLang共同构建起“算力-引擎-模型”的高效闭环,为AI大规模落地金融、强化学习等领域扫清工程障碍。
直击Agent时代推理痛点:三大核心方案破解工程难题
随着Agent在应用侧加速渗透,推理系统面临高并发、长上下文、权重频繁更新等挑战,尤其金融场景对低延迟、稳定性、一致性要求更为严苛。SGLang联合昇腾针对性推出三大技术方案:
-
HiCache体系:破解长上下文显存困局针对高并发、长上下文场景下KV Cache重复计算、显存占用过高的问题,SGLang创新引入HiCache三级缓存机制——将KV Cache动态分配至GPU HBM(高速显存)、CPU DRAM(内存)与远端存储,由Cache Controller自动管理卸载与流水线化异步预取。以金融Agent处理“多轮财报分析”为例,当上下文窗口扩展至64K时,HiCache可使显存占用降低30%以上,推理吞吐较传统方案提升2倍,确保长文本处理的稳定性。
-
Mooncake机制:加速权重更新与冷启动强化学习(RL)中策略权重频繁更新易导致GPU空转,63B模型冷启动耗时曾长达85秒。Mooncake基于Transfer Engine实现异步预读与流水线并行,将Kimi K2万亿参数模型的权重更新准备时间压缩至20秒内,63B模型冷启动时间降至9秒。同时,通过“Server化+全异步执行”结合oversample策略,有效缓解rollout长尾请求问题,避免单请求拖慢90%训练进度。
-
MoE模型优化:解决负载均衡与内存调度针对DeepSeek V3.2、GLM-4.5等MoE模型,SGLang重构执行路径与内存管理机制,在昇腾平台实现fuse MoE算子优化。以Qwen3-235B MoE模型为例,通过Dispatch/Combine流程融合GMM计算,减少算子切换开销;借助多流并行技术让Cube与Vector计算单元协同工作,在3.5K输入、1.5K输出场景下,双卡推理吞吐达477 TPS,端到端延迟(TPOT)稳定在50毫秒,满足金融智能投顾“实时响应+多模态分析”需求。
昇腾平台性能突破:多模型实测亮眼,Day 0支持新模型
SGLang在昇腾平台的适配不仅实现“零代码”易用性,更通过硬件亲和优化刷新推理性能基准,多款主流模型实测数据表现突出:
-
DeepSeek V3.2:长上下文推理效率领先昇腾实现对DeepSeek V3.2的Day 0支持,在PD分离、64K长输入、3K输出场景下,单卡推理吞吐达15 TPS,首token生成时间(TTFT)约4秒,PD传输(基于昇腾HCCS高速互联技术)耗时仅8毫秒,TPOT控制在20毫秒内。核心优化包括:重新分配计算任务实现CP rank负载均衡,融合SFA、Lightning Indexer等算子减少内存访问,Cube计算路径引入权重预取机制重叠数据搬运与计算,资源利用率提升40%。
-
Qwen系列:多规模模型性能全面达标针对不同规模Qwen模型,昇腾联合SGLang打造分层优化方案:Qwen3-32B在3.5K输入、1.5K输出场景下,双卡推理吞吐达708 TPS,TPOT 49毫秒;Qwen3-Next通过Mamba Radix Tree统一前缀管理,结合Elastic Memory Pool弹性调度KV Cache与Mamba State,长上下文多并发场景显存优化效率提升50%。同时,引入W8A8量化、EAGLE3等通用能力,为不同形态模型提供基础性能支撑。
-
多硬件兼容:从端侧到云端全场景覆盖昇腾凭借达芬奇架构优势,成为SGLang少数支持从端侧边缘设备到云端万卡集群的硬件平台。此次适配覆盖昇腾310、910等全系列芯片,结合华为CANN开源生态,开发者可直接调用昇腾亲和加速库(如sg-kernel-NPU量化算子),无需修改模型代码即可实现跨硬件部署,为金融机构“云端训练+边缘推理”的混合架构提供灵活选择。
生态共建:从“能用”到“好用”,昇腾融入开源推理主线
昇腾与SGLang的协同并非简单硬件适配,而是从架构层深度参与推理系统设计,推动国产算力生态从“能用”向“好用”跨越:
-
架构层深度融合:优化下沉至算子库昇腾相关优化已下沉至SGLang的SGL-kernel-NPU算子库,集中维护量化算子、MLAPO混合精度计算等亲和能力;Engine层支持EPLB(专家负载均衡)、Graph Runner图模式执行,实现GPU与NPU后端统一调度;缓存体系依托HiCache完成L1/L2-L3直通优化,底层通过HCCS技术实现低延迟数据传输,为万卡级集群推理奠定基础。
-
开源生态协同:代码合入主仓,灰度测试落地所有适配代码均已合并至SGLang主仓库,开发者拉取主线代码即可使用昇腾加速能力,无需额外安装插件。目前,基于该方案的DeepSeek V3.2已在金融机构完成灰度测试,应用于信贷审批文档智能分析、市场风险实时预警等场景,处理效率较传统方案提升3倍,人力成本降低60%。华为高级项目群总监薛曜表示,双方合作核心是“不动Models层,仅在底层完成硬件亲和与性能提升”,让开发者聚焦业务创新。
-
未来路线清晰:聚焦推理系统与生态标准化昇腾接下来将通过Zero Buffer机制、昇腾版Triton生态建设,进一步压榨单机与多机推理吞吐;同时保持与vLLM等开源引擎接口对齐,让模型上线、算子开发形成可复用路径。正如SGLang开发者黄章衡所言,“推理系统的终极目标是让AI‘长期跑、规模化跑’,昇腾与SGLang的协同正朝着这个方向扎实推进。”
行业意义:加速国产算力生态成熟,推动金融AI规模化落地
此次SGLang与昇腾的深度协同,不仅解决当下推理部署的工程痛点,更为国产算力生态提供“软硬协同”的标准化范本:
-
降低金融AI落地门槛:零代码适配与高性能表现,让金融机构无需组建专业适配团队,即可快速部署大模型应用。以智能风控场景为例,原本需数周的模型上线流程缩短至小时级,同时满足合规要求的低延迟、高稳定性。
-
树立国产算力标杆:昇腾通过SGLang融入开源推理主线,改变“硬件强、生态弱”的现状,成为主流推理工作流的默认后端选项。其HCCS互联、多流并行等技术优势,为国产芯片在高端推理场景的竞争提供核心支撑。
-
推动推理技术普惠:双方开源共建模式吸引更多开发者加入,目前SGLang已支撑全球超400,000 GPU运行,昇腾的加入将进一步丰富硬件选择,让中小团队也能享受高性能推理能力,加速AGI技术在金融、医疗等领域的普惠落地。
随着合作深入,SGLang与昇腾计划进一步拓展多模态模型适配,覆盖视频生成、3D推理等更复杂场景,为国产AI基础设施的“高效能、高易用、高可靠”持续赋能。