【量子位 2026年1月9日讯】去年登上《Nature》封面的DeepSeek-R1大模型,在论文发布近一年后突然迎来“重磅更新”——DeepSeek团队悄悄为其补充64页技术细节,将原本22页的论文扩展至86页,首次完整公开R1的四阶段训练路径、反思能力涌现机制及安全性防控方案。这份堪称“教科书级”的技术披露,不仅解答了行业对纯强化学习路线的诸多疑问,更以“毫无保留”的细节呈现,为大模型研发提供了可复现的工程范本。
值得关注的是,从作者名单来看,R1核心贡献团队稳定性极强——18位核心成员全员留任,100多位贡献者中仅5人离职,甚至有1位此前离队的研究员回归,在人才流动频繁的AI行业堪称“另类”。
一、四阶段训练路径全公开:从冷启动到人类对齐,每步细节无保留
DeepSeek-R1作为纯强化学习路线的代表性模型,其训练过程一直是行业关注的焦点。此次补充的技术报告中,团队首次系统性拆解了R1的完整训练 pipeline,分为四个核心阶段,每个阶段的目标、数据、算法均清晰披露:
1. 冷启动:用数千条CoT数据打基础
训练初期,团队并未直接进入强化学习环节,而是先用数千条包含完整思考过程的CoT(Chain of Thought,思维链)数据对基础模型(DeepSeek-V3 Base)进行有监督微调(SFT)。这些数据覆盖数学推理、逻辑分析等多个领域,每条样本都包含“问题+分步推理+答案”,目的是让模型先掌握“结构化思考”的基本范式,避免后续RL训练中出现“思考逻辑混乱”的问题。
丁琰团队特别强调,冷启动阶段的数据质量至关重要:“我们筛选的CoT样本均经过3轮人工校验,确保推理步骤无漏洞,这是后续模型能稳定学习的基础。”
2. 推理导向RL:提升能力+解决语种混用
冷启动后,进入第一阶段强化学习(RL),核心目标是在不破坏思考风格的前提下提升推理能力。团队设计了两类奖励信号:
-
推理准确性奖励:基于模型输出与标准答案的匹配度,以及推理步骤的完整性打分;
-
语言一致性奖励:针对多语言场景,解决模型此前“中英文混用”的问题——若模型在中文对话中突然插入英文表述,会触发惩罚机制。
通过这一轮RL,R1在数学推理基准测试(如GSM8K)中的准确率提升18%,同时多语言一致性达标率从65%升至92%。
3. 拒绝采样+再微调:平衡推理与通用能力
为避免模型“偏科”(只擅长推理,不擅长日常对话、写作),团队引入“拒绝采样”策略:从模型生成的样本中,筛选出“推理能力强但通用表达差”的输出,结合通用对话数据(如日常闲聊、文案创作)进行再微调。
这一阶段的关键在于“数据配比”——团队通过实验发现,推理数据与通用数据按7:3混合时,模型既能保持90%以上的推理准确率,又能在日常对话中表现自然,避免出现“只会解题不会聊天”的尴尬。
4. 对齐导向RL:打磨安全性与有用性
最后一轮RL聚焦“人类偏好对齐”,团队构建了包含10万条样本的“偏好数据集”,涵盖“有用性”“安全性”“礼貌性”三个维度。例如:
-
有用性:判断模型回答是否能切实解决用户问题(如“教我做蛋糕”需包含完整步骤,而非简单建议);
-
安全性:过滤涉及暴力、歧视、非法行为的内容;
-
礼貌性:避免使用生硬、冒犯性语言。
通过这一轮训练,R1在人类偏好评估中的得分较基础模型提升40%,同时保持了推理能力的稳定性。
二、“反思能力”涌现机制解密:反思词频率涨5-7倍,8000步现关键拐点
在去年的论文中,DeepSeek首次提出R1-Zero(R1的简化版)会在训练中“突然学会反思”的现象(即“Aha Moment”)。此次补充的附录C.2中,团队通过数据统计,揭示了这一机制的细节:
1. 反思行为的量化指标
团队由3位人工专家筛选出10个“反思性词汇”(如“wait”“mistake”“however”“verify”),统计它们在训练过程中的出现频率。结果显示:
-
随着训练推进,这些词汇的出现次数较初期增长5-7倍,证明模型的反思意识在持续强化;
-
不同反思词的涌现节奏不同:“mistake”“check”等词在训练早期(2000步左右)就开始出现,而“wait”(表示暂停思考、修正错误)则在8000步后才出现明显峰值,成为模型“深度反思”的关键标志。
2. 反思能力与推理性能的关联
进一步分析发现,反思词频率的提升与模型推理准确率呈强正相关——当“wait”等深度反思词的出现频率突破阈值(每1000 tokens中出现15次)后,R1在复杂推理任务(如多步骤数学题)中的错误率骤降30%。
“这说明模型不是‘机械记忆’解题方法,而是真正学会了‘停下来检查错误’,这是通用智能的重要特征。”丁琰解释道。
三、安全性防控方案:10.6万条风险提示+双流程审查,多语言安全达标率超90%
作为开源模型,R1的安全性一直是行业关注的重点。此次报告中,团队详细披露了其“风险控制系统”的设计与效果:
1. 10.6万条风险数据集+点式安全奖励模型
团队构建了包含10.6万条提示的风险数据集,覆盖“暴力、歧视、非法行为、隐私泄露”等11大类风险场景。基于该数据集,训练了“点式安全奖励模型”——直接判断单条模型输出是否安全,而非依赖“安全/不安全样本对比”,训练效率提升50%。
2. 双流程风险审查机制
在实际应用中,R1通过“关键词过滤+模型评估”双流程防控风险:
-
关键词过滤:每轮对话后,系统会扫描用户输入和模型输出,若命中预设风险关键词(如“制造炸弹”“黑客教程”),立即标记为“高危对话”;
-
模型评估:将高危对话发送给DeepSeek-V3(经过安全专项训练的模型)进行二次审查,判断是否需要拦截。若V3判定“存在严重风险”,则触发拒答机制,回复“该问题涉及不安全内容,无法为你提供帮助”。
3. 多语言安全表现:28种语言达标率超90%
团队还针对28种语言(包括乌尔都语、斯瓦希里语等小语种)进行安全性测试,结果显示:
-
主流语言(中、英、日、法)的安全达标率均超95%;
-
小语种(如乌兹别克语、塔吉克语)达标率也在90%以上,仅在“知识产权相关问题”(如“如何下载盗版软件”)上表现稍弱(HarmBench基准测试中得35分),团队表示后续将针对性优化。
四、团队稳定性引热议:核心成员全员留任,1人离职后回归
除技术细节外,网友从作者名单中发现了一个“暖心细节”:
-
18位核心贡献者中,全员仍在DeepSeek团队,无一人离职;
-
100多位普通贡献者中,仅5人标注“已离职”(姓名后加星号),远低于行业平均20%的流动率;
-
更特别的是,此前离职的研究员Ruiqi Ge(去年名单中标注星号),此次重新出现在作者栏,星号消失,意味着其已回归团队。
这种稳定性在AI行业实属罕见。有业内人士评论:“大模型研发需要长期积累,核心团队不流失,才能保证技术路线的连贯性。DeepSeek的团队稳定性,或许是其能持续产出高质量成果的重要原因。”
五、行业意义:为纯强化学习路线提供“可复现范本”
此次DeepSeek补全R1技术报告,不仅是对自身研究的补充,更对整个行业具有重要意义:
-
降低研发门槛:86页的详细报告包含超参数设置、数据筛选标准、训练流程等“实操细节”,相当于为行业提供了一份“纯强化学习路线说明书”,中小团队无需从零摸索;
-
推动技术透明化:在大模型技术多偏向“黑箱”的当下,DeepSeek的“毫无保留”有助于行业建立统一的技术标准,避免“重复造轮子”;
-
验证纯RL路线可行性:此前有观点认为“纯强化学习难以兼顾推理与通用能力”,R1的完整训练路径证明,通过合理的阶段设计和数据配比,纯RL路线完全可行,为后续模型研发提供新方向。
结语:R1的“句号”与新猜想
DeepSeek选择在R1论文发布一周年之际补充技术细节,被不少网友解读为“给R1画上一个完整的句号”。而结合团队稳定性和技术储备,业内开始猜测:“R1的细节披露,是否意味着R2(新一代模型)已在研发中?”
对此,DeepSeek暂未回应,但从其“持续公开技术、稳定团队”的动作来看,这家公司正以“长期主义”的姿态,在大模型赛道深耕。正如丁琰在分享中所说:“大模型研发不是‘一蹴而就’的,需要耐心打磨每一个细节,而透明化的技术分享,能让整个行业跑得更快。”
目前,补充后的R1论文已在arXiv上线(https://arxiv.org/abs/2501.12948v2),感兴趣的开发者可直接下载查阅。这份“教科书级”的技术报告,或许将成为未来大模型研发的重要参考。