2025 年 11 月 17 日,据量子位报道,随着多位顶尖研究者离开 Meta,他们在 Meta 期间参与的研究成果正陆续发表,成为 “看一篇少一篇” 的珍贵内容。近日,曾任职 Meta 的田渊栋带领团队发布新论文,聚焦大模型强化学习(RL)训练中的核心困惑 —— 为何 RL 训练能带来巨大性能提升,却仅改变极少数参数,为这一领域的研究带来突破性见解。
核心困惑:RL 训练 “高收益低变化” 的悖论
在大模型领域,OpenAI-o3、DeepSeek-R1 等具备强大推理能力的模型,均通过大规模可验证奖励强化学习(RLVR)训练,实现了数学、编程能力的显著增强。按照常理,如此大幅的能力提升应伴随大量参数的调整,但近期研究却发现,RL 训练的参数更新呈现出明显的 “稀疏性”,与监督微调(SFT)的密集参数更新形成鲜明对比,这种 “高收益、低变化” 的现象始终是行业未解的悖论。
为解开这一谜题,田渊栋团队展开深入研究,选取 Qwen 系列、DeepSeek-R1-Distill-Qwen 等多个开源模型作为研究对象。这些模型均经过超过 3000 步的长时间 RL 训练,覆盖数学、编程、STEM、逻辑谜题、指令遵循等多样化任务。团队设计了一种 bfloat16 精度感知的探测方法,精准测量参数更新的稀疏度,结果令人惊讶:SFT 的参数更新稀疏度通常仅为 0.6% 至 18.8%,而 RL 训练的稀疏度却高达 36% 至 92%,二者相差一个数量级。以 Qwen3-30B-A3B 模型为例,其经 GRPO 算法在数学任务上训练后,参数更新稀疏度达到 91.7%,意味着超九成参数未发生明显变化。
三门理论:揭开 RL 参数更新的内在机制
团队并未止步于现象观察,而是进一步挖掘背后的深层逻辑,提出全新的 “三门理论(Three-Gate Theory)”,从约束、引导、过滤三个维度,系统解释了 RL 训练如何定位至特定参数区域,最终呈现出参数更新稀疏的表象。
第一门:KL 锚定(KL Anchor)—— 约束参数移动范围
RLVR 的核心是 “试错学习”,但为避免模型输出风格偏离原有特性(例如从简洁表达变得冗长),其训练过程存在严格的约束机制。在线策略梯度更新会在每一步施加策略 KL 界限,即便在没有显式 KL 正则项的 DAPO 算法中,比例裁剪技巧也会施加 O (ε²) 的 KL 界限。这种 “锚定效应” 确保模型每一步更新相对于当前策略的漂移极小,进而严格限制了参数的移动范围,使得大量参数难以发生显著变化。
第二门:模型几何(Model Geometry)—— 引导更新方向
预训练模型拥有高度结构化的几何特性,不同参数区域的 “敏感度” 差异显著。例如,负责核心逻辑的参数对应高曲率区域,这类参数改动对模型性能影响大,但也极易导致模型不稳定;而部分参数处于低曲率区域,改动时对模型整体框架影响较小。在 KL 约束的作用下,RL 更新会自然倾向于保持模型原始权重结构,优先选择优化景观中的低曲率方向进行调整。
反观 SFT 训练,其更倾向于修改高曲率区域的参数以快速接近标准答案,但这种方式容易打乱模型原有的能力框架,反而不利于复杂推理任务。团队通过奇异值分解(SVD)分析发现,RL 更新与模型主成分权重的重叠度始终低于随机水平,表明 RL 有明确倾向避开主成分权重(多为高曲率区域),而与低幅度权重(多为低曲率区域)的重叠度则超随机水平,因为这类参数对微小更新的阻力更低。
第三门:精度过滤(Precision)—— 隐藏微小参数变化
bfloat16 的有限精度充当了 “过滤器”,隐藏了 RL 训练中部分微小的参数更新。由于 bfloat16 仅有 7 位尾数,小于单位最低位(ULP)阈值的参数变化无法被有效表示。当 RL 持续将更新路由到特定参数子集时,那些未被选中的参数即便存在微小波动,也会因精度限制无法被检测到,最终表现为参数更新的稀疏性。实验表明,若改用更高精度的 float32 格式,可观测到更多参数发生改动,进一步验证了精度过滤的影响。
为确保结论的可靠性,团队还进行了因果性验证实验:通过正交旋转和头部置换故意 “扰乱” Qwen3-4B-Base 模型特定层的几何结构。结果显示,被干预层的参数更新重叠度降至随机水平,而未干预层则保持较高重叠度,这直接证明预训练模型的几何结构是导致 RL 参数更新偏差的关键因素。此外,光谱分析发现,RLVR 训练后的模型在顶部主成分内表现出稳定的谱特性,跨层主子空间旋转小、谱漂移小,奇异值曲线与基础模型高度一致;而 SFT 训练则会引发显著的谱旋转和漂移,再次印证了二者参数更新机制的本质差异。
研究启示:为 RL 训练算法设计提供新方向
这一研究不仅解开了 RL 训练参数稀疏的谜题,更为大模型 RL 训练算法及参数高效微调(PEFT)方法的设计提供了重要指导。团队发现,许多在 SFT 时代表现出色的 PEFT 方法,尤其是那些通过稀疏或低秩先验与主方向对齐的方法,在 RLVR 场景中迁移效果不佳。
在稀疏微调实验中,仅更新主成分权重(SFT 偏好的方向)会导致最差的优化轨迹,KL 曲线上升缓慢,出现过度干预和训练退化的问题;相反,更新非主成分、低幅度权重(RL 偏好的方向),则能紧密跟踪密集 RLVR 的训练轨迹,取得更优效果。对于近期流行的 LoRA 变体 PiSSA(主成分定向),研究发现其在 RL 训练中并未比标准 LoRA 带来额外收益,且在较高学习率下(需匹配全参数性能时),PiSSA 常因强制沿主方向(高曲率区域)更新而变得不稳定,甚至提前崩溃,因为这类方向正是 RLVR 试图避开的高风险区域。
田渊栋团队的这篇论文(地址:https://arxiv.org/abs/2511.08567),不仅填补了大模型 RL 训练参数更新机制研究的空白,更为后续算法优化和工程实践提供了清晰的方向,也让业界再次感受到 Meta 顶尖研究团队的深厚实力 —— 即便研究者已离开,这些凝聚智慧的成果仍在持续推动