DeepSeek-V3
深度求索 DeepSeek-V3 开源 MoE 大模型,671B 总参数 / 37B 激活,编程与数学逼近 GPT-4o 第一梯队,API 输入 ¥1/M 全网最低,权重 MIT 协议开放,国内直连无延迟,支持私有化部署。
规格
- 厂商
- 深度求索
- 发布日期
- 2025/1/20
- 类型
- llm
- 上下文窗口
- 128K tokens
- 最大输出
- 8K tokens
- 定价
- Input ¥1/M (缓存 ¥0.1/M) · Output ¥2/M
- API 兼容
- openai
基准测试
✓ 优势
- •开源 671B MoE 模型,可自行部署
- •API 价格全网最低,比 GLM-5.2 还便宜
- •编程能力接近第一梯队
- •支持思维链(Chain-of-Thought)推理
- •国内直连,响应快
⚠ 不足
- •8K 输出窗口偏短,长文件生成受限
- •多步 Agent 场景下稳定性不如 Claude
- •非编程场景的推理能力略逊 GPT-5
- •MoE 架构推理部署需要较大显存
适用场景
概述
DeepSeek-V3 是深度求索于 2025 年 1 月发布的 671B 参数 MoE 模型,总参数 671B 但每次推理仅激活 37B。最大优势是极致性价比——API 价格是 Claude Sonnet 4 的 1/20,且完全开源可自行部署。
核心能力
极致性价比
Input ¥1/M token,Output ¥2/M token,缓存命中后 Input 仅 ¥0.1/M。这个价格意味着:
- 100 万字中文处理成本约 ¥2
- 一个中型项目全量代码分析约 ¥5
- 批量处理 10 万条数据约 ¥20
Prompt Cache(自动命中)
DeepSeek 的 cache 完全自动——任何重复出现的 prompt 前缀(≥64 token)自动命中,Input 价格 -90%。响应里的 usage.prompt_cache_hit_tokens 字段显示命中量:
resp = client.chat.completions.create(
model="deepseek-chat",
messages=[...],
)
print(resp.usage.prompt_cache_hit_tokens) # 命中 cache 的 input token 数
print(resp.usage.prompt_cache_miss_tokens) # 没命中的
实测:固定 system prompt + 工具定义共 5000 token,cache 命中后单次调用 input 成本从 ¥0.005 降到 ¥0.0005——批量场景一晚省好几张百元钞。
开源
模型权重完全开源(MIT 协议),可以在自己的 GPU 上部署:
- 满血版 FP8:8×H100 (~640GB 显存)
- 量化版 INT4:2×H100 或 4×A100
- 通过 vLLM / SGLang 高性能推理
- 通过 Ollama 体验(推荐 70B 蒸馏版,本地能跑)
MoE 架构特性
671B 总参数 / 37B 激活——推理时只激活 37B,速度接近 37B 模型,质量接近 671B 模型。但显存要求按总参数算(必须把 671B 都加载进显存),所以自己部署门槛极高。绝大多数人通过 API 用即可。
编程
SWE-bench Verified 61.2%,接近第一梯队。在 Cursor、Aider 等工具中通过 OpenAI 兼容 API 接入,体验接近 Claude Sonnet 4 的 80% 水平。
API 调用示例
DeepSeek 提供 OpenAI 兼容 API:
from openai import OpenAI
client = OpenAI(
api_key="sk-...",
base_url="https://api.deepseek.com/v1",
)
resp = client.chat.completions.create(
model="deepseek-chat", # V3 别名(推理用 deepseek-reasoner = R1)
temperature=0.0,
messages=[
{"role": "system", "content": "你是 Python 高级工程师。"},
{"role": "user", "content": "Review this code..."},
],
)
与 Aider 配合用
Aider 是用 DeepSeek-V3 最方便的 CLI 之一:
export OPENAI_API_KEY=sk-...
export OPENAI_API_BASE=https://api.deepseek.com/v1
aider --model deepseek-chat
成本:一晚做完一个中型 feature 通常 ¥1-3,是用 Claude 的 1/20。
在 Cursor 中接入
Cursor → Settings → Models → Add Model
Provider: OpenAI
Base URL: https://api.deepseek.com/v1
Model: deepseek-chat
API Key: sk-...
关键参数
| 参数 | 推荐 | 说明 |
|---|---|---|
temperature | 0.0-0.3 | 编程 / 工具调用 |
temperature | 1.0 | 通用对话 |
top_p | 0.95 | DeepSeek 默认 |
max_tokens | 显式设 | 默认 4K,长输出务必调高(上限 8K) |
frequency_penalty | 0 | 一般不动 |
response_format | {"type": "json_object"} | JSON 模式 |
定价
| 项目 | 价格 |
|---|---|
| Input | ¥1 / 百万 token |
| Input(缓存命中) | ¥0.1 / 百万 token |
| Output | ¥2 / 百万 token |
这个价格是 GLM-5.2 的一半,是 Claude Sonnet 4 的 1/20。
夜间折扣:北京时间 00:30-08:30,所有价格再 -50%。批量数据处理可以定时跑在夜间。
自行部署
如果数据敏感不能上云:
| 配置 | 性能 | 成本 |
|---|---|---|
| 8×H100 FP8 满血 | ~50 tok/s 单并发 | ~¥30-50 万/月(云租赁) |
| 4×H100 INT4 量化 | ~30 tok/s 单并发 | ~¥15-25 万/月 |
| 7B/13B 蒸馏版(Ollama) | 笔记本可跑 | 几乎免费 |
蒸馏版是 Meta 把 V3 的输出蒸馏到 Llama / Qwen 上的小模型,能力差距明显但本地能跑。
适用场景
- 批量处理:价格极低,适合大规模文本分类、摘要、翻译
- 私有化部署:开源协议允许商用,企业可在自有 GPU 上部署
- 编程辅助:通过 API 接入 Cursor / Aider,低成本替代 Claude
- 研究实验:开源权重可用于学术研究和模型微调
- 后端模型:Coze / Dify / 自建 Agent 平台的低成本后端
与同档对比
| 维度 | DeepSeek-V3 | GLM-5.2 | Qwen 3 |
|---|---|---|---|
| 价格 | ¥1/¥2 | ¥2/¥6 | ¥0.8/¥2 |
| SWE-bench | 61.2% | 65.3% | 58.4% |
| 上下文 | 128K | 128K | 128K |
| 输出窗口 | 8K(短) | 32K | 16K |
| 开源 | ✅ 完全 | 部分 | ✅ 全系列 |
| 缓存折扣 | ✅ 自动 -90% | ✅ | ✅ |
避坑清单
- 8K 输出窗口最短:长文件 / 长报告生成会被截断。需要 32K+ 输出选 GLM-5.2 或 Qwen。
deepseek-chatvsdeepseek-reasoner:前者是 V3 通用,后者是 R1 推理模型。别选错。- MoE 部署门槛:想自部署"满血版"必须有 8×H100,否则别想,老老实实用 API。
- dev 服务器并发:免费/低 tier RPM 限制较紧,生产前务必充值升级。
- 思维链不要直接喂回去:deepseek-chat 不输出思维链,但 reasoner 会。Multi-turn 时要把
reasoning_content字段剥掉,只把content作为 assistant 历史,否则下一轮上下文翻倍。
延伸阅读
- 推理兄弟:DeepSeek-R1
- 同档国产:GLM-5.2 / Qwen 3
- 工具集成:Function Calling
- 成本控制:Token