闲置网卡变_加速器_!DeepSeek新框架DualPath突破AI推理瓶颈,吞吐量提升近2倍

AI 资讯11小时前发布 dennis
0

在大模型智能体推理场景中,”计算快、数据搬得慢”的I/O瓶颈长期困扰行业。2026年2月,DeepSeek联合北京大学、清华大学团队在ArXiv发布重磅论文,推出全新推理框架DualPath,创新性地利用解码引擎闲置的存储网卡带宽,构建双路径数据加载模式,成功打破存储带宽限制。实测显示,该框架可使660B规模生产级模型的离线推理吞吐量提升1.87倍,在线服务吞吐量平均提升1.96倍,为智能体长文本推理提供了高效解决方案。

核心痛点:智能体推理陷入”搬运瓶颈”

随着AI智能体在长文本交互、多轮对话等场景的广泛应用,KV-Cache(键值缓存)的作用愈发关键。这类场景中,KV-Cache命中率通常高达95%以上,意味着每一轮推理都需要搬运海量历史缓存数据,推理性能瓶颈已从”计算”转移到”数据搬运”。

传统预填充-解码分离(PD-disaggregated)架构中,所有缓存加载任务都集中在预填充引擎(PE)的存储网卡上,极易造成带宽饱和;而解码引擎(DE)的存储网卡却长期处于闲置状态,形成严重的资源错配。更严峻的是,当前GPU算力增长速度远超网络带宽和HBM容量提升,进一步加剧了I/O限制,正如英伟达首席科学家Bill Dally所言:”计算是免费的,但数据移动是昂贵的”。

创新突破:双路径架构激活闲置资源

DualPath的核心创新在于打破了”存储→预填充引擎”的单路径加载模式,构建”存储→预填充引擎”(路径A)与”存储→解码引擎→预填充引擎”(路径B)的双路径架构,让闲置的解码侧存储网卡(SNIC)发挥作用。

路径B的工作流程极具巧思:KV-Cache先从存储加载至解码引擎的DRAM缓冲区,再通过高速计算网络(RDMA)无损传输至预填充引擎,配合中央调度器的动态负载分配,实现集群存储带宽的全局池化。为支持层级流式处理,框架在预填充引擎和解码引擎均配置了专用缓冲区,通过精细的数据流设计,让缓存传输与计算过程重叠执行,大幅提升整体效率。

针对双路径可能引发的流量冲突问题,DualPath设计了两套优化方案:一是采用以计算网卡(CNIC)为中心的流量管理,通过虚拟层技术将推理通信设为最高优先级并预留99%带宽,确保缓存搬运不干扰核心计算;二是搭载自适应请求调度器,实时监控节点磁盘队列长度和Token数,优先将任务分配给I/O压力小、计算负载轻的节点,从源头避免拥塞。

实测表现:高负载下性能翻倍,延迟稳如磐石

在DeepSeek-V3、Qwen等模型的多场景测试中,DualPath展现出强悍的性能提升。在离线推理场景中,随着智能体数量增加和上下文长度延长(最高64k Token),框架始终保持稳定表现,端到端吞吐量最高提升1.87倍;在线服务场景中,平均吞吐量提升1.96倍,同时显著优化了首字延迟(TTFT),而Token间生成速度(TBT)在高负载下几乎不受影响。

值得关注的是,这一性能突破并未依赖额外硬件投入,而是通过架构创新激活了原本闲置的网络资源,实现了”零成本升级”。这种算法与系统协同优化的思路,为大模型推理基础设施的效率提升提供了全新范式。

团队背景:产学研联合攻坚,技术积淀深厚

该研究由DeepSeek系统组联合北大、清华团队共同完成,第一作者为北京大学博士生吴永彤(师从金鑫教授),其研究方向聚焦大模型推理系统的工程优化与规模化部署,曾在腾讯、微软亚研院、华盛顿大学等机构积累丰富的实习经验,参与过服务亿级用户的大模型推理系统建设。

团队此前在大模型基础设施领域已有深厚积淀,此次DualPath框架的发布,不仅为智能体推理提供了高效解决方案,更剧透了DeepSeek V4模型的技术方向。随着论文同步开源,业界开发者可基于相关代码进一步探索优化,推动大模型推理效率的整体提升。

在AI技术向规模化应用加速渗透的背景下,推理效率成为核心竞争力。DualPath框架通过盘活闲置资源、优化数据流动的创新思路,为突破I/O瓶颈提供了可落地的技术路径。未来,随着该框架在更多场景的落地应用,有望进一步降低大模型智能体的部署成本,推动AI技术在各行业的普及。

© 版权声明

相关文章