跳到主内容
AIHO 2026 全新改版上线
reasoning月之暗面

Kimi K2 Thinking

月之暗面 2025 年 11 月开源的 agent 推理模型,1T/32B MoE,可连续 200-300 次工具调用,原生 INT4 提速 2x,BrowseComp 超过 GPT-5 High。

规格

厂商
月之暗面
发布日期
2025/11/6
类型
reasoning
上下文窗口
256K tokens
最大输出
32K tokens
定价
开源可自部署 · 官方 API 按量计费
API 兼容
openai, anthropic

基准测试

71.3%
SWE-bench Verified
60.2%
BrowseComp
99.1%
AIME25 (w/ Python)
51.0%
HLE (Heavy Mode)
84.5%
GPQA
83.1%
LiveCodeBench V6

✓ 优势

  • 开源 agent 推理 SOTA,1T 总参 / 32B 激活 MoE
  • 可维持 200–300 次连续工具调用不退化
  • 原生 INT4 量化(QAT),低延迟模式提速 2x
  • 256K 上下文,Modified MIT 许可可商用
  • BrowseComp 60.2% 超过 GPT-5 High

⚠ 不足

  • 1T 参数自部署门槛极高,需多卡集群
  • 纯编程 SWE-bench 71.3% 略低于闭源旗舰
  • max output 相对保守
  • 中文生态外文档相对少

适用场景

开源 agentic 推理与工具编排深度搜索 / 多步检索 agent需可商用开源权重的私有部署长链路自动化任务

概述

Kimi K2 Thinking 是月之暗面(Moonshot AI)于 2025 年 11 月 6 日开源的「思维模型」,定位为「thinking agent」——把分步推理(Chain-of-Thought)与动态工具调用交织起来处理复杂长程任务。它是站内 Kimi K2 的推理强化版,发布时在推理/编码/agentic 基准上被视为开源 SOTA,部分指标超过 GPT-5、Claude Sonnet 4.5(Thinking)和 Grok-4。

核心能力

超长工具调用链

最突出的能力是可维持 200–300 次连续工具调用而保持目标连贯,远超此前模型通常 30–50 步就开始退化的水平。这对长链路 agent(深度搜索、多步自动化)是质变。关于工具调用机制见 Function Calling

原生 INT4 量化

后训练阶段采用量化感知训练(QAT),原生支持 INT4:低延迟模式提速 2x、显存占用下降,且几乎无性能损失。这降低了自部署成本。

模型规格

项目参数
架构Mixture-of-Experts (MoE)
总参 / 激活1T / 32B
专家数384(每 token 选 8 + 1 共享)
注意力MLA(多头潜在注意力)
上下文256K
许可Modified MIT(可商用)

基准亮点

  • Agentic 搜索:BrowseComp 60.2%,超过 GPT-5 High 的 54.9%
  • 推理:AIME25(含 Python)99.1%,GPQA 84.5%
  • 编码:SWE-bench Verified 71.3%,LiveCodeBench V6 83.1%

部署示例

pip install vllm
vllm serve "moonshotai/Kimi-K2-Thinking"
# 推荐 temperature 1.0
response = client.chat.completions.create(
    model="moonshotai/Kimi-K2-Thinking",
    messages=messages,
    temperature=1.0,
    max_tokens=4096,
)
print(response.choices[0].message.content)
print(response.choices[0].message.reasoning_content)  # 思考过程

推荐推理引擎:vLLM、SGLang、KTransformers。

与同类模型怎么选

维度Kimi K2 ThinkingMiniMax M2Qwen3-Coder
定位开源 agent 推理开源 agent/编程性价比开源 agentic 编码
参数1T/32B230B/10B480B/35B
上下文256K256K(可扩 1M)
许可Modified MITMITApache 2.0
自部署门槛极高

建议:要最强开源 agent 推理且有集群资源选 K2 Thinking;资源有限、追性价比看 MiniMax M2;纯编码选 Qwen3-Coder

避坑清单

  • 1T 参数不是消费级硬件能跑的:自部署需多卡集群,个人优先用官方 API 或 OpenRouter
  • 用 INT4 原生权重:QAT 训练的 INT4 几乎无损,别自己粗暴量化。
  • Heavy Mode 是并行策略:HLE 51% 是 8 轨迹并行聚合的结果,单轨调用别按此预期。
  • temperature 保持 1.0:官方推荐值。

延伸阅读