Name: Kimi K2 Thinking
Brand: 月之暗面

概述

Kimi K2 Thinking 是月之暗面（Moonshot AI）于 2025 年 11 月 6 日开源的「思维模型」，定位为「thinking agent」——把分步推理（Chain-of-Thought）与动态工具调用交织起来处理复杂长程任务。它是站内 Kimi K2 的推理强化版，发布时在推理/编码/agentic 基准上被视为开源 SOTA，部分指标超过 GPT-5、Claude Sonnet 4.5（Thinking）和 Grok-4。

核心能力

超长工具调用链

最突出的能力是可维持 200–300 次连续工具调用而保持目标连贯，远超此前模型通常 30–50 步就开始退化的水平。这对长链路 agent（深度搜索、多步自动化）是质变。关于工具调用机制见 Function Calling。

原生 INT4 量化

后训练阶段采用量化感知训练（QAT），原生支持 INT4：低延迟模式提速 2x、显存占用下降，且几乎无性能损失。这降低了自部署成本。

模型规格

项目	参数
架构	Mixture-of-Experts (MoE)
总参 / 激活	1T / 32B
专家数	384（每 token 选 8 + 1 共享）
注意力	MLA（多头潜在注意力）
上下文	256K
许可	Modified MIT（可商用）

基准亮点

Agentic 搜索：BrowseComp 60.2%，超过 GPT-5 High 的 54.9%
推理：AIME25（含 Python）99.1%，GPQA 84.5%
编码：SWE-bench Verified 71.3%，LiveCodeBench V6 83.1%

部署示例

pip install vllm
vllm serve "moonshotai/Kimi-K2-Thinking"

# 推荐 temperature 1.0
response = client.chat.completions.create(
    model="moonshotai/Kimi-K2-Thinking",
    messages=messages,
    temperature=1.0,
    max_tokens=4096,
)
print(response.choices[0].message.content)
print(response.choices[0].message.reasoning_content)  # 思考过程

推荐推理引擎：vLLM、SGLang、KTransformers。

与同类模型怎么选

维度	Kimi K2 Thinking	MiniMax M2	Qwen3-Coder
定位	开源 agent 推理	开源 agent/编程性价比	开源 agentic 编码
参数	1T/32B	230B/10B	480B/35B
上下文	256K	大	256K（可扩 1M）
许可	Modified MIT	MIT	Apache 2.0
自部署门槛	极高	中	高

建议：要最强开源 agent 推理且有集群资源选 K2 Thinking；资源有限、追性价比看 MiniMax M2；纯编码选 Qwen3-Coder。

避坑清单

1T 参数不是消费级硬件能跑的：自部署需多卡集群，个人优先用官方 API 或 OpenRouter。
用 INT4 原生权重：QAT 训练的 INT4 几乎无损，别自己粗暴量化。
Heavy Mode 是并行策略：HLE 51% 是 8 轨迹并行聚合的结果，单轨调用别按此预期。
temperature 保持 1.0：官方推荐值。

Kimi K2 Thinking

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述