跳到主内容
AIHO 2026 全新改版上线
reasoning深度求索

DeepSeek-R1

深度求索 DeepSeek-R1 开源推理大模型,完整暴露思维链(Chain of Thought)推理过程,数学与代码推理能力对标 GPT-5/o3,API 输入仅 ¥1/M 是 OpenAI 同级的 1/30,国内可直连且权重开放,支持私有部署。

规格

厂商
深度求索
发布日期
2025/1/20
类型
reasoning
上下文窗口
128K tokens
最大输出
33K tokens
定价
Input ¥1/M (缓存 ¥0.1/M) · Output ¥4/M(含思维链)
API 兼容
openai

基准测试

97.3%
MATH-500
79.8%
AIME 2024
58.2%
GPQA Diamond
89.2%
HumanEval

✓ 优势

  • 开源推理模型,思维链完全可见
  • 数学推理能力接近 GPT-5
  • 价格极低,推理模型中性价比最高
  • 国内直连,响应快
  • 可自行部署(开源权重)

⚠ 不足

  • 思维链 token 也计费,实际成本高于 V3
  • 非推理任务不如 V3(速度更慢)
  • 128K 上下文
  • 输出含思维链,需额外解析

适用场景

数学竞赛 / 证明题复杂逻辑推理算法设计科学问题分析

概述

DeepSeek-R1 是深度求索于 2025 年 1 月与 V3 同步发布的推理模型。与 V3 的区别在于:R1 在回答前会先"想一想"(思维链),在数学、逻辑、科学推理上远超 V3。

R1 的发布是开源大模型领域的一个分水岭事件——首次让"推理模型"以完全开源 + 思维链可见的形式进入业界,比 OpenAI o1(思维链黑盒)更开放。

核心能力

推理能力

R1 在 MATH-500 上拿到 97.3%,AIME 2024(美国数学竞赛)79.8%。这些成绩接近 GPT-5(98.4% / 82.3%),远超非推理模型:

模型MATH-500AIME 2024
GPT-598.4%82.3%
DeepSeek-R197.3%79.8%
Claude Opus 4~96%~74%
DeepSeek-V390.2%39.2%
Claude Sonnet 492%49%
GPT-4o76.6%13.4%

注意 V3 → R1 在 AIME 上从 39% 飙升到 79%——这就是"推理模式"带来的差距。

思维链可见

R1 的思维链完全开放——你可以看到模型一步步推理的过程:

resp = client.chat.completions.create(
    model="deepseek-reasoner",   # R1 的别名
    messages=[{"role": "user", "content": "证明..."}],
)
# 关键字段
print(resp.choices[0].message.reasoning_content)   # 思维链
print(resp.choices[0].message.content)             # 最终回答

reasoning_content 字段在 OpenAI 兼容接口上是 DeepSeek 的扩展。这对以下场景特别有价值:

  • 教育场景 — 学生可以看到解题思路
  • 调试场景 — 开发者可以理解模型为什么这样回答
  • 信任建立 — 可验证的推理过程
  • 数据蒸馏 — 用 R1 的思维链训练小模型(Meta 这么干过)

开源

R1 模型权重完全开源(MIT 协议)。可以在自己的 GPU 上部署,不依赖 API。同时 DeepSeek 也放出了 R1-Distill 系列——把 R1 的能力蒸馏到 Llama / Qwen 的小模型上:

蒸馏版本显存需求性能保留
R1-Distill-Qwen-1.5B4GB数学接近 V3
R1-Distill-Qwen-7B16GB推理接近 GPT-4o
R1-Distill-Llama-70B140GB接近原版 R1

1.5B 在笔记本上就能跑推理模型——这是 R1 之前完全不可能的。

API 调用示例

from openai import OpenAI
client = OpenAI(
    api_key="sk-...",
    base_url="https://api.deepseek.com/v1",
)

resp = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "证明素数无穷"}
    ],
    # 注意:R1 不支持 temperature / top_p / presence_penalty 等参数
    # 传了会被忽略
    max_tokens=8000,
)

msg = resp.choices[0].message
print("【思考过程】")
print(msg.reasoning_content)
print("\n【最终答案】")
print(msg.content)

Multi-turn 注意事项

重要:multi-turn 对话时不要把 reasoning_content 加回 messages 历史,只保留 content

# ❌ 错误:把思维链塞回历史,下一轮上下文翻倍
history.append({"role": "assistant", "content": msg.reasoning_content + msg.content})

# ✅ 正确:只保留最终答案
history.append({"role": "assistant", "content": msg.content})

这点新手最容易踩——把思维链当成"模型记忆"塞回去,结果上下文成本飞涨且模型困惑。

定价

项目价格
Input¥1 / 百万 token
Input(缓存命中)¥0.1 / 百万 token
Output(含思维链)¥4 / 百万 token

注意:R1 的 Output 价格高于 V3(¥2/M),因为思维链 token 也计入 Output。实际使用中,思维链通常占 Output 的 50-80%,所以实际成本约为 V3 的 3-4 倍

夜间折扣(00:30-08:30)同样适用,再 -50%。复杂数学批量任务定时跑夜间。

R1 vs V3 怎么选

维度R1(推理)V3(通用)
数学/逻辑★★★★★★★★☆☆
编程★★★★☆★★★★☆
日常对话★★★☆☆★★★★☆
速度慢(需推理)
实际成本¥4/M Output¥2/M Output
多轮对话麻烦(思维链要剥)简单
工具调用❌ 不支持

建议

  • 数学 / 推理 / 算法 → R1
  • 编程 / 对话 / 批量 → V3
  • Agent 工具调用 → V3(R1 不支持 function calling)

R1 vs OpenAI o-series / Claude Opus thinking

维度R1OpenAI o-series(已并入 GPT-5)Claude Opus 4 thinking
思维链可见✅ 完整部分(summary)✅ 完整
开源✅ MIT
价格 Output¥4/M$10-$60/M$75/M
数学(AIME)79.8%82.3%~74%
工具调用

R1 的核心定位:开源 + 思维链可见 + 价格极低——研究、教育、蒸馏小模型的首选。

适合场景

✅ 适合:

  • 数学题求解 / 证明
  • 算法设计 / 复杂逻辑推理
  • 科学问题分析
  • 学术研究 / 论文公式推导
  • 代码调试时的根因分析(让 R1 解释为什么 bug)
  • 训练数据生成(用 R1 思维链做 SFT 数据,详见 LoRA

❌ 不适合:

  • 日常对话 / 客服(太慢太贵)
  • Agent 工具调用(不支持)
  • 实时聊天(首 token 等很久)
  • 简单分类 / 抽取(V3 / Haiku 更划算)

避坑清单

  • 不支持 function calling:R1 不能直接做 Agent 的工具调用层,只能做"先推理再交给 V3 / GPT 执行"。
  • 不要传 temperature:R1 不支持采样参数,传了被忽略,不要从 V3 代码硬迁过来。
  • 思维链不可缓存:思维链每次重新生成,prompt cache 不能复用思维链——这是 R1 比 V3 贵的根本原因。
  • multi-turn 把思维链剥掉:上面已强调,最常见的踩坑。
  • 本地跑选蒸馏版:满血 R1 部署门槛极高(同 V3),普通人用 R1-Distill-7B / 14B 走 Ollama 即可体验。

延伸阅读

相关工具