闲置网卡变_加速器_！DeepSeek新框架DualPath突破AI推理瓶颈，吞吐量提升近2倍

0 0

在大模型智能体推理场景中，”计算快、数据搬得慢”的I/O瓶颈长期困扰行业。2026年2月，DeepSeek联合北京大学、清华大学团队在ArXiv发布重磅论文，推出全新推理框架DualPath，创新性地利用解码引擎闲置的存储网卡带宽，构建双路径数据加载模式，成功打破存储带宽限制。实测显示，该框架可使660B规模生产级模型的离线推理吞吐量提升1.87倍，在线服务吞吐量平均提升1.96倍，为智能体长文本推理提供了高效解决方案。

核心痛点：智能体推理陷入”搬运瓶颈”

随着AI智能体在长文本交互、多轮对话等场景的广泛应用，KV-Cache（键值缓存）的作用愈发关键。这类场景中，KV-Cache命中率通常高达95%以上，意味着每一轮推理都需要搬运海量历史缓存数据，推理性能瓶颈已从”计算”转移到”数据搬运”。

传统预填充-解码分离（PD-disaggregated）架构中，所有缓存加载任务都集中在预填充引擎（PE）的存储网卡上，极易造成带宽饱和；而解码引擎（DE）的存储网卡却长期处于闲置状态，形成严重的资源错配。更严峻的是，当前GPU算力增长速度远超网络带宽和HBM容量提升，进一步加剧了I/O限制，正如英伟达首席科学家Bill Dally所言：”计算是免费的，但数据移动是昂贵的”。

创新突破：双路径架构激活闲置资源

DualPath的核心创新在于打破了”存储→预填充引擎”的单路径加载模式，构建”存储→预填充引擎”（路径A）与”存储→解码引擎→预填充引擎”（路径B）的双路径架构，让闲置的解码侧存储网卡（SNIC）发挥作用。

路径B的工作流程极具巧思：KV-Cache先从存储加载至解码引擎的DRAM缓冲区，再通过高速计算网络（RDMA）无损传输至预填充引擎，配合中央调度器的动态负载分配，实现集群存储带宽的全局池化。为支持层级流式处理，框架在预填充引擎和解码引擎均配置了专用缓冲区，通过精细的数据流设计，让缓存传输与计算过程重叠执行，大幅提升整体效率。

针对双路径可能引发的流量冲突问题，DualPath设计了两套优化方案：一是采用以计算网卡（CNIC）为中心的流量管理，通过虚拟层技术将推理通信设为最高优先级并预留99%带宽，确保缓存搬运不干扰核心计算；二是搭载自适应请求调度器，实时监控节点磁盘队列长度和Token数，优先将任务分配给I/O压力小、计算负载轻的节点，从源头避免拥塞。

实测表现：高负载下性能翻倍，延迟稳如磐石

在DeepSeek-V3、Qwen等模型的多场景测试中，DualPath展现出强悍的性能提升。在离线推理场景中，随着智能体数量增加和上下文长度延长（最高64k Token），框架始终保持稳定表现，端到端吞吐量最高提升1.87倍；在线服务场景中，平均吞吐量提升1.96倍，同时显著优化了首字延迟（TTFT），而Token间生成速度（TBT）在高负载下几乎不受影响。

值得关注的是，这一性能突破并未依赖额外硬件投入，而是通过架构创新激活了原本闲置的网络资源，实现了”零成本升级”。这种算法与系统协同优化的思路，为大模型推理基础设施的效率提升提供了全新范式。