Name: DeepSeek-V3
Brand: 深度求索

概述

DeepSeek-V3 是深度求索于 2025 年 1 月发布的 671B 参数 MoE 模型，总参数 671B 但每次推理仅激活 37B。最大优势是极致性价比——API 价格是 Claude Sonnet 4 的 1/20，且完全开源可自行部署。

核心能力

极致性价比

Input ¥1/M token，Output ¥2/M token，缓存命中后 Input 仅 ¥0.1/M。这个价格意味着：

100 万字中文处理成本约 ¥2
一个中型项目全量代码分析约 ¥5
批量处理 10 万条数据约 ¥20

Prompt Cache（自动命中）

DeepSeek 的 cache 完全自动——任何重复出现的 prompt 前缀（≥64 token）自动命中，Input 价格 -90%。响应里的 usage.prompt_cache_hit_tokens 字段显示命中量：

resp = client.chat.completions.create(
    model="deepseek-chat",
    messages=[...],
)
print(resp.usage.prompt_cache_hit_tokens)   # 命中 cache 的 input token 数
print(resp.usage.prompt_cache_miss_tokens)  # 没命中的

实测：固定 system prompt + 工具定义共 5000 token，cache 命中后单次调用 input 成本从 ¥0.005 降到 ¥0.0005——批量场景一晚省好几张百元钞。

开源

模型权重完全开源（MIT 协议），可以在自己的 GPU 上部署：

满血版 FP8：8×H100 (~640GB 显存)
量化版 INT4：2×H100 或 4×A100
通过 vLLM / SGLang 高性能推理
通过 Ollama 体验（推荐 70B 蒸馏版，本地能跑）

MoE 架构特性

671B 总参数 / 37B 激活——推理时只激活 37B，速度接近 37B 模型，质量接近 671B 模型。但显存要求按总参数算（必须把 671B 都加载进显存），所以自己部署门槛极高。绝大多数人通过 API 用即可。

编程

SWE-bench Verified 61.2%，接近第一梯队。在 Cursor、Aider 等工具中通过 OpenAI 兼容 API 接入，体验接近 Claude Sonnet 4 的 80% 水平。

API 调用示例

DeepSeek 提供 OpenAI 兼容 API：

from openai import OpenAI
client = OpenAI(
    api_key="sk-...",
    base_url="https://api.deepseek.com/v1",
)

resp = client.chat.completions.create(
    model="deepseek-chat",        # V3 别名（推理用 deepseek-reasoner = R1）
    temperature=0.0,
    messages=[
        {"role": "system", "content": "你是 Python 高级工程师。"},
        {"role": "user", "content": "Review this code..."},
    ],
)

与 Aider 配合用

Aider 是用 DeepSeek-V3 最方便的 CLI 之一：

export OPENAI_API_KEY=sk-...
export OPENAI_API_BASE=https://api.deepseek.com/v1
aider --model deepseek-chat

成本：一晚做完一个中型 feature 通常 ¥1-3，是用 Claude 的 1/20。

在 Cursor 中接入

Cursor → Settings → Models → Add Model
  Provider: OpenAI
  Base URL: https://api.deepseek.com/v1
  Model: deepseek-chat
  API Key: sk-...

关键参数

参数	推荐	说明
`temperature`	0.0-0.3	编程 / 工具调用
`temperature`	1.0	通用对话
`top_p`	0.95	DeepSeek 默认
`max_tokens`	显式设	默认 4K，长输出务必调高（上限 8K）
`frequency_penalty`	0	一般不动
`response_format`	`{"type": "json_object"}`	JSON 模式

定价

项目	价格
Input	¥1 / 百万 token
Input（缓存命中）	¥0.1 / 百万 token
Output	¥2 / 百万 token

这个价格是 GLM-5.2 的一半，是 Claude Sonnet 4 的 1/20。

夜间折扣：北京时间 00:30-08:30，所有价格再 -50%。批量数据处理可以定时跑在夜间。

自行部署

如果数据敏感不能上云：

配置	性能	成本
8×H100 FP8 满血	~50 tok/s 单并发	~¥30-50 万/月（云租赁）
4×H100 INT4 量化	~30 tok/s 单并发	~¥15-25 万/月
7B/13B 蒸馏版（Ollama）	笔记本可跑	几乎免费

蒸馏版是 Meta 把 V3 的输出蒸馏到 Llama / Qwen 上的小模型，能力差距明显但本地能跑。

适用场景

批量处理：价格极低，适合大规模文本分类、摘要、翻译
私有化部署：开源协议允许商用，企业可在自有 GPU 上部署
编程辅助：通过 API 接入 Cursor / Aider，低成本替代 Claude
研究实验：开源权重可用于学术研究和模型微调
后端模型：Coze / Dify / 自建 Agent 平台的低成本后端

与同档对比

维度	DeepSeek-V3	GLM-5.2	Qwen 3
价格	¥1/¥2	¥2/¥6	¥0.8/¥2
SWE-bench	61.2%	65.3%	58.4%
上下文	128K	128K	128K
输出窗口	8K（短）	32K	16K
开源	✅ 完全	部分	✅ 全系列
缓存折扣	✅ 自动 -90%	✅	✅

避坑清单

8K 输出窗口最短：长文件 / 长报告生成会被截断。需要 32K+ 输出选 GLM-5.2 或 Qwen。
deepseek-chat vs deepseek-reasoner：前者是 V3 通用，后者是 R1 推理模型。别选错。
MoE 部署门槛：想自部署"满血版"必须有 8×H100，否则别想，老老实实用 API。
dev 服务器并发：免费/低 tier RPM 限制较紧，生产前务必充值升级。
思维链不要直接喂回去：deepseek-chat 不输出思维链，但 reasoner 会。Multi-turn 时要把 reasoning_content 字段剥掉，只把 content 作为 assistant 历史，否则下一轮上下文翻倍。

DeepSeek-V3

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述

核心能力

极致性价比

Prompt Cache（自动命中）

开源

MoE 架构特性

编程

API 调用示例

与 Aider 配合用

在 Cursor 中接入

关键参数

定价

自行部署

适用场景

与同档对比

避坑清单

延伸阅读

相关工具