reasoning月之暗面
Kimi K2 Thinking
月之暗面 2025 年 11 月开源的 agent 推理模型,1T/32B MoE,可连续 200-300 次工具调用,原生 INT4 提速 2x,BrowseComp 超过 GPT-5 High。
规格
- 厂商
- 月之暗面
- 发布日期
- 2025/11/6
- 类型
- reasoning
- 上下文窗口
- 256K tokens
- 最大输出
- 32K tokens
- 定价
- 开源可自部署 · 官方 API 按量计费
- API 兼容
- openai, anthropic
基准测试
71.3%
SWE-bench Verified
60.2%
BrowseComp
99.1%
AIME25 (w/ Python)
51.0%
HLE (Heavy Mode)
84.5%
GPQA
83.1%
LiveCodeBench V6
✓ 优势
- •开源 agent 推理 SOTA,1T 总参 / 32B 激活 MoE
- •可维持 200–300 次连续工具调用不退化
- •原生 INT4 量化(QAT),低延迟模式提速 2x
- •256K 上下文,Modified MIT 许可可商用
- •BrowseComp 60.2% 超过 GPT-5 High
⚠ 不足
- •1T 参数自部署门槛极高,需多卡集群
- •纯编程 SWE-bench 71.3% 略低于闭源旗舰
- •max output 相对保守
- •中文生态外文档相对少
适用场景
开源 agentic 推理与工具编排深度搜索 / 多步检索 agent需可商用开源权重的私有部署长链路自动化任务
概述
Kimi K2 Thinking 是月之暗面(Moonshot AI)于 2025 年 11 月 6 日开源的「思维模型」,定位为「thinking agent」——把分步推理(Chain-of-Thought)与动态工具调用交织起来处理复杂长程任务。它是站内 Kimi K2 的推理强化版,发布时在推理/编码/agentic 基准上被视为开源 SOTA,部分指标超过 GPT-5、Claude Sonnet 4.5(Thinking)和 Grok-4。
核心能力
超长工具调用链
最突出的能力是可维持 200–300 次连续工具调用而保持目标连贯,远超此前模型通常 30–50 步就开始退化的水平。这对长链路 agent(深度搜索、多步自动化)是质变。关于工具调用机制见 Function Calling。
原生 INT4 量化
后训练阶段采用量化感知训练(QAT),原生支持 INT4:低延迟模式提速 2x、显存占用下降,且几乎无性能损失。这降低了自部署成本。
模型规格
| 项目 | 参数 |
|---|---|
| 架构 | Mixture-of-Experts (MoE) |
| 总参 / 激活 | 1T / 32B |
| 专家数 | 384(每 token 选 8 + 1 共享) |
| 注意力 | MLA(多头潜在注意力) |
| 上下文 | 256K |
| 许可 | Modified MIT(可商用) |
基准亮点
- Agentic 搜索:BrowseComp 60.2%,超过 GPT-5 High 的 54.9%
- 推理:AIME25(含 Python)99.1%,GPQA 84.5%
- 编码:SWE-bench Verified 71.3%,LiveCodeBench V6 83.1%
部署示例
pip install vllm
vllm serve "moonshotai/Kimi-K2-Thinking"
# 推荐 temperature 1.0
response = client.chat.completions.create(
model="moonshotai/Kimi-K2-Thinking",
messages=messages,
temperature=1.0,
max_tokens=4096,
)
print(response.choices[0].message.content)
print(response.choices[0].message.reasoning_content) # 思考过程
推荐推理引擎:vLLM、SGLang、KTransformers。
与同类模型怎么选
| 维度 | Kimi K2 Thinking | MiniMax M2 | Qwen3-Coder |
|---|---|---|---|
| 定位 | 开源 agent 推理 | 开源 agent/编程性价比 | 开源 agentic 编码 |
| 参数 | 1T/32B | 230B/10B | 480B/35B |
| 上下文 | 256K | 大 | 256K(可扩 1M) |
| 许可 | Modified MIT | MIT | Apache 2.0 |
| 自部署门槛 | 极高 | 中 | 高 |
建议:要最强开源 agent 推理且有集群资源选 K2 Thinking;资源有限、追性价比看 MiniMax M2;纯编码选 Qwen3-Coder。
避坑清单
- 1T 参数不是消费级硬件能跑的:自部署需多卡集群,个人优先用官方 API 或 OpenRouter。
- 用 INT4 原生权重:QAT 训练的 INT4 几乎无损,别自己粗暴量化。
- Heavy Mode 是并行策略:HLE 51% 是 8 轨迹并行聚合的结果,单轨调用别按此预期。
- temperature 保持 1.0:官方推荐值。
延伸阅读
- 对比同类:MiniMax M2 / Qwen3-Coder / DeepSeek-R1
- 同系列:Kimi K2
- 本地部署:Ollama