Name: DeepSeek-R1
Brand: 深度求索

概述

DeepSeek-R1 是深度求索于 2025 年 1 月与 V3 同步发布的推理模型。与 V3 的区别在于：R1 在回答前会先"想一想"（思维链），在数学、逻辑、科学推理上远超 V3。

R1 的发布是开源大模型领域的一个分水岭事件——首次让"推理模型"以完全开源 + 思维链可见的形式进入业界，比 OpenAI o1（思维链黑盒）更开放。

核心能力

推理能力

R1 在 MATH-500 上拿到 97.3%，AIME 2024（美国数学竞赛）79.8%。这些成绩接近 GPT-5（98.4% / 82.3%），远超非推理模型：

模型	MATH-500	AIME 2024
GPT-5	98.4%	82.3%
DeepSeek-R1	97.3%	79.8%
Claude Opus 4	~96%	~74%
DeepSeek-V3	90.2%	39.2%
Claude Sonnet 4	92%	49%
GPT-4o	76.6%	13.4%

注意 V3 → R1 在 AIME 上从 39% 飙升到 79%——这就是"推理模式"带来的差距。

思维链可见

R1 的思维链完全开放——你可以看到模型一步步推理的过程：

resp = client.chat.completions.create(
    model="deepseek-reasoner",   # R1 的别名
    messages=[{"role": "user", "content": "证明..."}],
)
# 关键字段
print(resp.choices[0].message.reasoning_content)   # 思维链
print(resp.choices[0].message.content)             # 最终回答

reasoning_content 字段在 OpenAI 兼容接口上是 DeepSeek 的扩展。这对以下场景特别有价值：

教育场景 — 学生可以看到解题思路
调试场景 — 开发者可以理解模型为什么这样回答
信任建立 — 可验证的推理过程
数据蒸馏 — 用 R1 的思维链训练小模型（Meta 这么干过）

开源

R1 模型权重完全开源（MIT 协议）。可以在自己的 GPU 上部署，不依赖 API。同时 DeepSeek 也放出了 R1-Distill 系列——把 R1 的能力蒸馏到 Llama / Qwen 的小模型上：

蒸馏版本	显存需求	性能保留
R1-Distill-Qwen-1.5B	4GB	数学接近 V3
R1-Distill-Qwen-7B	16GB	推理接近 GPT-4o
R1-Distill-Llama-70B	140GB	接近原版 R1

1.5B 在笔记本上就能跑推理模型——这是 R1 之前完全不可能的。

API 调用示例

from openai import OpenAI
client = OpenAI(
    api_key="sk-...",
    base_url="https://api.deepseek.com/v1",
)

resp = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[
        {"role": "user", "content": "证明素数无穷"}
    ],
    # 注意：R1 不支持 temperature / top_p / presence_penalty 等参数
    # 传了会被忽略
    max_tokens=8000,
)

msg = resp.choices[0].message
print("【思考过程】")
print(msg.reasoning_content)
print("\n【最终答案】")
print(msg.content)

Multi-turn 注意事项

重要：multi-turn 对话时不要把 reasoning_content 加回 messages 历史，只保留 content：

# ❌ 错误：把思维链塞回历史，下一轮上下文翻倍
history.append({"role": "assistant", "content": msg.reasoning_content + msg.content})

# ✅ 正确：只保留最终答案
history.append({"role": "assistant", "content": msg.content})

这点新手最容易踩——把思维链当成"模型记忆"塞回去，结果上下文成本飞涨且模型困惑。

定价

项目	价格
Input	¥1 / 百万 token
Input（缓存命中）	¥0.1 / 百万 token
Output（含思维链）	¥4 / 百万 token

注意：R1 的 Output 价格高于 V3（¥2/M），因为思维链 token 也计入 Output。实际使用中，思维链通常占 Output 的 50-80%，所以实际成本约为 V3 的 3-4 倍。

夜间折扣（00:30-08:30）同样适用，再 -50%。复杂数学批量任务定时跑夜间。

R1 vs V3 怎么选

维度	R1（推理）	V3（通用）
数学/逻辑	★★★★★	★★★☆☆
编程	★★★★☆	★★★★☆
日常对话	★★★☆☆	★★★★☆
速度	慢（需推理）	快
实际成本	¥4/M Output	¥2/M Output
多轮对话	麻烦（思维链要剥）	简单
工具调用	❌ 不支持	✅

建议：

数学 / 推理 / 算法 → R1
编程 / 对话 / 批量 → V3
Agent 工具调用 → V3（R1 不支持 function calling）

R1 vs OpenAI o-series / Claude Opus thinking

维度	R1	OpenAI o-series（已并入 GPT-5）	Claude Opus 4 thinking
思维链可见	✅ 完整	部分（summary）	✅ 完整
开源	✅ MIT	❌	❌
价格 Output	¥4/M	$10-$60/M	$75/M
数学（AIME）	79.8%	82.3%	~74%
工具调用	❌	✅	✅

R1 的核心定位：开源 + 思维链可见 + 价格极低——研究、教育、蒸馏小模型的首选。

适合场景

✅ 适合：

数学题求解 / 证明
算法设计 / 复杂逻辑推理
科学问题分析
学术研究 / 论文公式推导
代码调试时的根因分析（让 R1 解释为什么 bug）
训练数据生成（用 R1 思维链做 SFT 数据，详见 LoRA）

❌ 不适合：

日常对话 / 客服（太慢太贵）
Agent 工具调用（不支持）
实时聊天（首 token 等很久）
简单分类 / 抽取（V3 / Haiku 更划算）

避坑清单

不支持 function calling：R1 不能直接做 Agent 的工具调用层，只能做"先推理再交给 V3 / GPT 执行"。
不要传 temperature：R1 不支持采样参数，传了被忽略，不要从 V3 代码硬迁过来。
思维链不可缓存：思维链每次重新生成，prompt cache 不能复用思维链——这是 R1 比 V3 贵的根本原因。
multi-turn 把思维链剥掉：上面已强调，最常见的踩坑。
本地跑选蒸馏版：满血 R1 部署门槛极高（同 V3），普通人用 R1-Distill-7B / 14B 走 Ollama 即可体验。

DeepSeek-R1

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述