改核心算法 2025 年 11 月 27 日,月之暗面(Moonshot AI)联合清华大学团队发布全新强化学习(RL)训练加速引擎 Seer,在不改变核心训练算法的前提下,实现同步 RL 生成阶段(Rollout)效率提升 74%\97%,长尾延迟降低 75%\93%,一举解决当前大模型 RL 训练中 “生成慢、延迟高、资源浪费” 的核心痛点,为大模型高效迭代提供关键技术支撑。
直击行业痛点:RL 训练的 “生成效率困局”
强化学习是推动大模型能力迭代的核心技术(如对齐人类偏好、提升推理能力),但现有系统在端到端训练中面临严重性能瓶颈:生成阶段(Rollout)需消耗大量时间与算力,却因工作负载不均衡导致两大问题 —— 一是 “长尾延迟”,部分长请求会拖慢整体进度,例如基线系统 veRL 在 Moonlight 模型训练中,最后 10% 请求耗时占总时长的 50%;二是资源利用率低,不同推理实例间负载失衡,部分实例因内存溢出(OOM)被迫中断,部分则处于低负载状态,造成算力浪费。
以传统分组生成模式为例,多个请求组分配给不同推理实例后,实例内请求长度差异大(如部分请求生成长度 100token,部分 500token)、实例间负载不均(有的实例满负荷,有的空闲),最终导致训练周期拉长,难以满足大模型快速迭代需求。
Seer 引擎三大核心:从架构到技术的全面优化
为破解这一困局,月之暗面团队设计 Seer 高效同步 RL 框架,通过 “推理引擎池 + 请求缓冲区 + 上下文管理器” 三大核心架构,结合三项关键技术,实现全链路效率提升:
1. 架构革新:全局协同,打破资源壁垒
-
推理引擎池(Inference Engine Pool):基于 DRAM/SSD 构建跨节点全局 KVCache 池,整合多个 GPU 推理实例。一方面支持动态负载均衡,将请求灵活分配给空闲实例;另一方面复用中间数据 —— 生成任务拆解后,片段的 KVCache(键值缓存)存储在共享池,后续调度到新实例时无需重新编码提示词,大幅降低迁移开销。
-
请求缓冲区(Request Buffer):作为所有 Rollout 请求的统一入口,维护请求全量元数据(组 ID、提示词长度、最大生成长度、已生成长度等),实时追踪请求状态(未调度 / 处理中 / 已完成),为精细化调度提供数据支撑。
-
上下文管理器(Context Manager):动态维护所有请求的上下文视图,基于请求长度、已生成进度等信号生成调度决策,避免 “长请求被搁置” 的情况。
2. 关键技术:针对性解决三大核心问题
-
分段生成(Divided Rollout):将同一提示词的响应拆分为多个独立片段,每个片段作为单独请求进入缓冲区等待调度,直到生成达到原始最大长度。例如将 500token 的生成任务拆分为 5 个 100token 片段,分散到不同实例并行处理,同时通过全局 KVCache 池复用中间结果,避免重复计算。
-
上下文感知调度(Context-Aware Scheduling):采用 “先探路 + 后调度” 策略,为每个提示词组指定首个请求为 “投机请求”,优先生成以获取该组的长度特征(如平均生成长度、最长请求长度),再基于特征调度剩余请求 —— 将长请求优先分配给资源充足的实例,避免其被保留到最后导致长尾延迟。实验显示,该策略的吞吐量接近 “提前知晓所有请求长度” 的理想调度(Oracle),长尾延迟仅为无调度优化方案的 13%。
-
自适应分组推测解码(Adaptive Grouped Speculative Decoding):传统推测解码依赖静态小模型生成草稿,难以适配 RL 中目标模型的迭代更新。Seer 利用组内响应模式相似的特性,通过分布式分组草稿服务器(DGDS)聚合组内所有响应的 token 序列,构建动态模式参考库,基于参考库生成草稿。随着组内响应增加,草稿质量持续提升,同时无需额外部署小模型,削减模型开销。实验验证,该技术使吞吐量较无推测解码方案提升 30%,且草稿接受长度随训练推进动态增长。
实验成果:速度与延迟的 “颠覆性提升”
团队以 veRL(主流同步 RL 系统)为基线,在 Moonlight、Qwen2-VL-72B、Kimi-K2 三个模型上采用 GRPO 算法测试,结果显示 Seer 性能全面领先:
-
吞吐量提升 74%~97%:在 Moonlight 模型训练中,Seer 的 Rollout 吞吐量较 veRL 提升 97%,接近翻倍;Qwen2-VL-72B 与 Kimi-K2 模型分别提升 82%、74%,且训练过程中稳定性更强,无明显性能波动。
-
长尾延迟降低 75%~93%:Moonlight 任务中,veRL 最后 10% 请求耗时 3984 秒,Seer 仅需 364 秒,延迟降低 85%;Qwen2-VL-72B 任务延迟降低 93%(veRL 8051 秒→Seer 561 秒);Kimi-K2 任务降低 75%,彻底解决 “长请求拖慢整体” 的问题。
专项实验进一步验证核心技术价值:上下文感知调度使吞吐量达到理想调度的 95%,自适应分组推测解码使吞吐量较静态方案提升 19%,证明多技术协同是效率突破的关键。
融资与未来:估值将达 40 亿美元,加速技术落地
值得关注的是,伴随技术突破,月之暗面正推进新一轮数亿美元融资,潜在投资方包括 IDG Capital 及现有股东腾讯,本轮融资完成后公司估值将提升至 40 亿美元,计划于 2025 年底前收官,并在 2026 年下半年启动 IPO 进程。
月之暗面表示,Seer 引擎已在内部大模型训练中落地应用,后续将进一步优化多模态模型适配能力,同时探索与云服务商合作,向外部企业开放加速能力,助力整个行业降低 RL 训练成本、缩短迭代周期。
从技术突破到商业化推进,Seer 引擎的发布不仅体现月之暗面在大模型训练基础设施领域的积累,更为行业提供了 “不改核心算法即可提升效率” 的新思路 —— 在大模型竞争进入 “算力与效率双驱动” 的阶段,这类底层技术创新或将成为企业构建核心竞争力的关键。