2025年12月1日,国产开源大模型领域再迎重磅突破——DeepSeek团队正式发布并开源DeepSeek-V3.2系列模型,包含聚焦实用平衡的DeepSeek-V3.2与主打极致推理的DeepSeek-V3.2-Speciale两个版本。其中,Speciale版本在国际数学奥林匹克竞赛(IMO 2025)、哈佛MIT数学竞赛(HMMT 2025)等顶级赛事中斩获金牌,编程竞赛能力达到人类选手顶尖水平,核心性能直接对标谷歌Gemini-3.0-Pro,为开源模型阵营注入强劲动力。
双版本定位明确:覆盖实用与极致推理场景
DeepSeek-V3.2系列针对不同需求场景进行差异化设计。基础版DeepSeek-V3.2以“平衡实用”为核心,推理能力比肩GPT-5,略低于Gemini-3.0-Pro,适用于日常问答、通用Agent任务及工具调用场景。该模型特别优化了输出长度,相比Kimi-K2-Thinking大幅缩短用户等待时间,同时支持“思考/非思考双模式工具调用”,是DeepSeek首款将思考过程融入工具使用的模型。依托1800+任务环境、85000+复杂指令的大规模Agent训练数据,其在未针对特定测试集优化的情况下,仍在ToolUse、MCP-Universe等工具调用评测中取得开源模型最高水平,MCP-Universe得分45.9,接近Gemini-3.0-Pro的50.7。
进阶版DeepSeek-V3.2-Speciale则是“极致推理”的代表,融合DeepSeek-Math-V2的定理证明能力,在数学推理、编程竞赛、学术研究等复杂任务中表现突出。实测显示,其在HMMT Feb 2025竞赛中以99.2分远超GPT-5 High(88.3分),IMOAnswerBench得分84.5,超越Gemini-3.0-Pro的83.3;编程领域更实现突破,CodeForces竞赛 Rating达2701,与Gemini-3.0-Pro(2708)几乎持平,ICPC World Finals 2025成绩位列人类选手第二,IOI 2025排名人类选手第十。不过需注意,该版本未针对日常对话优化,仅供研究使用且不支持工具调用,同时因推理过程复杂,Token消耗显著更高,成本也相应增加。
核心技术革新:DSA稀疏注意力破解长文本难题
DeepSeek-V3.2系列的最大技术突破,在于首创DSA(DeepSeek Sparse Attention)高效稀疏注意力机制,彻底解决传统注意力机制处理长序列时“计算复杂度高、推理成本贵”的痛点。传统注意力机制计算复杂度为O(L²)(L为序列长度),而DSA通过“闪电索引器(lightning indexer)”与“细粒度token选择”,将复杂度降至O(L·k)(k远小于L),在128K长序列任务中,推理效率大幅提升。
具体而言,闪电索引器通过ReLU激活函数快速计算查询token与历史token的相关性,筛选出top-k个关键token进行注意力计算;训练阶段采用“两阶段策略”:先以密集注意力训练索引器(1000步,处理21亿token),再引入稀疏机制(15000步,处理9437亿token),确保索引器与主注意力分布对齐。实测数据显示,在H800集群上,128K序列长度下,DeepSeek-V3.2预填充阶段每百万token成本从V3.1-Terminus的0.7美元降至0.2美元,解码阶段从2.4美元降至0.8美元,推理成本降低超60%,且无明显性能损失。此外,DSA还支持FP8精度与Multi-Query Attention(MLA)架构,兼顾训练友好性与部署效率。
强化学习投入加码:后训练算力超预训练10%
为突破开源模型“后训练资源不足”的瓶颈,DeepSeek团队在强化学习(RL)环节投入巨资,其RL训练计算预算超过预训练成本的10%,这一比例在开源模型中极为罕见。团队基于GRPO(Group Relative Policy Optimization)算法进行多项改进:通过无偏KL估计修正原始估计器的系统性误差,避免训练不稳定;采用离线序列掩码策略,过滤偏离当前策略过远的负样本;针对MoE模型设计Keep Routing操作,强制训练与推理阶段使用相同路由路径,确保参数优化一致性。
训练流程上,团队先为数学、编程、通用推理等6个领域训练专家模型,生成特定领域数据,再用于最终模型训练。这种“专家蒸馏”策略,让DeepSeek-V3.2在复杂任务上的性能显著提升。例如,在理工科博士生测试GPQA Diamond中,其得分82.4,接近GPT-5 High的85.7;人类全学科前沿难题测试HLE中,得分25.1,远超其他开源模型,展现出强大的泛化能力。
Agent能力突破:多场景任务处理效率跃升
DeepSeek-V3.2在Agent任务上实现关键突破,通过创新的上下文管理机制与数据生成 pipeline,让模型同时具备高效推理与工具使用能力。在思考上下文管理方面,模型仅在接收新用户消息时丢弃历史推理内容,工具相关消息交互时保留推理痕迹,避免token浪费;冷启动阶段,通过精心设计的系统提示,引导模型自然插入工具调用步骤,例如编程竞赛场景中,模型会先以特殊标签标记推理路径,再输出答案。
团队还开发了自动环境合成 pipeline,生成1827个任务导向环境与85000个复杂提示。以旅行规划任务为例,模型需在“不重复城市/酒店/景点”“按酒店价格调整餐饮景点预算”等多约束下生成行程,其“难解易验”的特性适配RL训练需求。评测显示,DeepSeek-V3.2在软件工程师任务基准SWE-Verified上解决率达73.1%,终端工具使用基准Terminal Bench 2.0准确率46.4%,均大幅超越现有开源模型;搜索Agent任务中,BrowseComp中文场景得分65.0,超越GPT-5 High的63.0,证明其能将推理策略泛化到未见过的Agent场景。
现存局限与未来方向
尽管性能亮眼,DeepSeek团队也坦诚指出模型的局限性:受总训练FLOPs限制,其世界知识广度仍落后于领先闭源模型;Token效率待提升,两个版本需生成更长轨迹才能达到Gemini-3.0-Pro的输出质量。不过团队表示,这些问题将在未来版本中重点优化。目前,DeepSeek-V3.2已更新至App与Web端正式版,Speciale版本开放临时API供研究使用,模型代码与技术报告已同步开源(GitHub及相关平台),开发者可基于该系列模型探索更多复杂场景应用。
业内专家评价,DeepSeek-V3.2系列的开源,不仅为开发者提供了“高性能、低成本”的开源模型选择,更通过DSA稀疏注意力、高比例RL训练等技术创新,为开源大模型的技术演进提供了新范式。随着该系列模型的普及,有望推动更多AI应用在中小企业及科研领域落地,进一步缩小开源与闭源模型的性能差距。