DeepSeek-R1
深度求索 DeepSeek-R1 开源推理大模型,完整暴露思维链(Chain of Thought)推理过程,数学与代码推理能力对标 GPT-5/o3,API 输入仅 ¥1/M 是 OpenAI 同级的 1/30,国内可直连且权重开放,支持私有部署。
规格
- 厂商
- 深度求索
- 发布日期
- 2025/1/20
- 类型
- reasoning
- 上下文窗口
- 128K tokens
- 最大输出
- 33K tokens
- 定价
- Input ¥1/M (缓存 ¥0.1/M) · Output ¥4/M(含思维链)
- API 兼容
- openai
基准测试
✓ 优势
- •开源推理模型,思维链完全可见
- •数学推理能力接近 GPT-5
- •价格极低,推理模型中性价比最高
- •国内直连,响应快
- •可自行部署(开源权重)
⚠ 不足
- •思维链 token 也计费,实际成本高于 V3
- •非推理任务不如 V3(速度更慢)
- •128K 上下文
- •输出含思维链,需额外解析
适用场景
概述
DeepSeek-R1 是深度求索于 2025 年 1 月与 V3 同步发布的推理模型。与 V3 的区别在于:R1 在回答前会先"想一想"(思维链),在数学、逻辑、科学推理上远超 V3。
R1 的发布是开源大模型领域的一个分水岭事件——首次让"推理模型"以完全开源 + 思维链可见的形式进入业界,比 OpenAI o1(思维链黑盒)更开放。
核心能力
推理能力
R1 在 MATH-500 上拿到 97.3%,AIME 2024(美国数学竞赛)79.8%。这些成绩接近 GPT-5(98.4% / 82.3%),远超非推理模型:
| 模型 | MATH-500 | AIME 2024 |
|---|---|---|
| GPT-5 | 98.4% | 82.3% |
| DeepSeek-R1 | 97.3% | 79.8% |
| Claude Opus 4 | ~96% | ~74% |
| DeepSeek-V3 | 90.2% | 39.2% |
| Claude Sonnet 4 | 92% | 49% |
| GPT-4o | 76.6% | 13.4% |
注意 V3 → R1 在 AIME 上从 39% 飙升到 79%——这就是"推理模式"带来的差距。
思维链可见
R1 的思维链完全开放——你可以看到模型一步步推理的过程:
resp = client.chat.completions.create(
model="deepseek-reasoner", # R1 的别名
messages=[{"role": "user", "content": "证明..."}],
)
# 关键字段
print(resp.choices[0].message.reasoning_content) # 思维链
print(resp.choices[0].message.content) # 最终回答
reasoning_content 字段在 OpenAI 兼容接口上是 DeepSeek 的扩展。这对以下场景特别有价值:
- 教育场景 — 学生可以看到解题思路
- 调试场景 — 开发者可以理解模型为什么这样回答
- 信任建立 — 可验证的推理过程
- 数据蒸馏 — 用 R1 的思维链训练小模型(Meta 这么干过)
开源
R1 模型权重完全开源(MIT 协议)。可以在自己的 GPU 上部署,不依赖 API。同时 DeepSeek 也放出了 R1-Distill 系列——把 R1 的能力蒸馏到 Llama / Qwen 的小模型上:
| 蒸馏版本 | 显存需求 | 性能保留 |
|---|---|---|
| R1-Distill-Qwen-1.5B | 4GB | 数学接近 V3 |
| R1-Distill-Qwen-7B | 16GB | 推理接近 GPT-4o |
| R1-Distill-Llama-70B | 140GB | 接近原版 R1 |
1.5B 在笔记本上就能跑推理模型——这是 R1 之前完全不可能的。
API 调用示例
from openai import OpenAI
client = OpenAI(
api_key="sk-...",
base_url="https://api.deepseek.com/v1",
)
resp = client.chat.completions.create(
model="deepseek-reasoner",
messages=[
{"role": "user", "content": "证明素数无穷"}
],
# 注意:R1 不支持 temperature / top_p / presence_penalty 等参数
# 传了会被忽略
max_tokens=8000,
)
msg = resp.choices[0].message
print("【思考过程】")
print(msg.reasoning_content)
print("\n【最终答案】")
print(msg.content)
Multi-turn 注意事项
重要:multi-turn 对话时不要把 reasoning_content 加回 messages 历史,只保留 content:
# ❌ 错误:把思维链塞回历史,下一轮上下文翻倍
history.append({"role": "assistant", "content": msg.reasoning_content + msg.content})
# ✅ 正确:只保留最终答案
history.append({"role": "assistant", "content": msg.content})
这点新手最容易踩——把思维链当成"模型记忆"塞回去,结果上下文成本飞涨且模型困惑。
定价
| 项目 | 价格 |
|---|---|
| Input | ¥1 / 百万 token |
| Input(缓存命中) | ¥0.1 / 百万 token |
| Output(含思维链) | ¥4 / 百万 token |
注意:R1 的 Output 价格高于 V3(¥2/M),因为思维链 token 也计入 Output。实际使用中,思维链通常占 Output 的 50-80%,所以实际成本约为 V3 的 3-4 倍。
夜间折扣(00:30-08:30)同样适用,再 -50%。复杂数学批量任务定时跑夜间。
R1 vs V3 怎么选
| 维度 | R1(推理) | V3(通用) |
|---|---|---|
| 数学/逻辑 | ★★★★★ | ★★★☆☆ |
| 编程 | ★★★★☆ | ★★★★☆ |
| 日常对话 | ★★★☆☆ | ★★★★☆ |
| 速度 | 慢(需推理) | 快 |
| 实际成本 | ¥4/M Output | ¥2/M Output |
| 多轮对话 | 麻烦(思维链要剥) | 简单 |
| 工具调用 | ❌ 不支持 | ✅ |
建议:
- 数学 / 推理 / 算法 → R1
- 编程 / 对话 / 批量 → V3
- Agent 工具调用 → V3(R1 不支持 function calling)
R1 vs OpenAI o-series / Claude Opus thinking
| 维度 | R1 | OpenAI o-series(已并入 GPT-5) | Claude Opus 4 thinking |
|---|---|---|---|
| 思维链可见 | ✅ 完整 | 部分(summary) | ✅ 完整 |
| 开源 | ✅ MIT | ❌ | ❌ |
| 价格 Output | ¥4/M | $10-$60/M | $75/M |
| 数学(AIME) | 79.8% | 82.3% | ~74% |
| 工具调用 | ❌ | ✅ | ✅ |
R1 的核心定位:开源 + 思维链可见 + 价格极低——研究、教育、蒸馏小模型的首选。
适合场景
✅ 适合:
- 数学题求解 / 证明
- 算法设计 / 复杂逻辑推理
- 科学问题分析
- 学术研究 / 论文公式推导
- 代码调试时的根因分析(让 R1 解释为什么 bug)
- 训练数据生成(用 R1 思维链做 SFT 数据,详见 LoRA)
❌ 不适合:
- 日常对话 / 客服(太慢太贵)
- Agent 工具调用(不支持)
- 实时聊天(首 token 等很久)
- 简单分类 / 抽取(V3 / Haiku 更划算)
避坑清单
- 不支持 function calling:R1 不能直接做 Agent 的工具调用层,只能做"先推理再交给 V3 / GPT 执行"。
- 不要传 temperature:R1 不支持采样参数,传了被忽略,不要从 V3 代码硬迁过来。
- 思维链不可缓存:思维链每次重新生成,prompt cache 不能复用思维链——这是 R1 比 V3 贵的根本原因。
- multi-turn 把思维链剥掉:上面已强调,最常见的踩坑。
- 本地跑选蒸馏版:满血 R1 部署门槛极高(同 V3),普通人用 R1-Distill-7B / 14B 走 Ollama 即可体验。
延伸阅读
- 通用兄弟:DeepSeek-V3
- 推理模型概念:Temperature 与 Top-P
- 思维链与 Prompt:Prompt Engineering
- 与同档对比:GPT-5 / Claude Opus 4