跳到主内容
AIHO 2026 全新改版上线
llm深度求索

DeepSeek-V3

深度求索 DeepSeek-V3 开源 MoE 大模型,671B 总参数 / 37B 激活,编程与数学逼近 GPT-4o 第一梯队,API 输入 ¥1/M 全网最低,权重 MIT 协议开放,国内直连无延迟,支持私有化部署。

规格

厂商
深度求索
发布日期
2025/1/20
类型
llm
上下文窗口
128K tokens
最大输出
8K tokens
定价
Input ¥1/M (缓存 ¥0.1/M) · Output ¥2/M
API 兼容
openai

基准测试

61.2%
SWE-bench Verified
88.5%
HumanEval
84.1%
MMLU
89.7%
CMMLU

✓ 优势

  • 开源 671B MoE 模型,可自行部署
  • API 价格全网最低,比 GLM-5.2 还便宜
  • 编程能力接近第一梯队
  • 支持思维链(Chain-of-Thought)推理
  • 国内直连,响应快

⚠ 不足

  • 8K 输出窗口偏短,长文件生成受限
  • 多步 Agent 场景下稳定性不如 Claude
  • 非编程场景的推理能力略逊 GPT-5
  • MoE 架构推理部署需要较大显存

适用场景

低成本高吞吐 API 调用私有化部署(开源版本)编程辅助(通过 API 接入 Cursor 等)中文 NLP 任务

概述

DeepSeek-V3 是深度求索于 2025 年 1 月发布的 671B 参数 MoE 模型,总参数 671B 但每次推理仅激活 37B。最大优势是极致性价比——API 价格是 Claude Sonnet 4 的 1/20,且完全开源可自行部署。

核心能力

极致性价比

Input ¥1/M token,Output ¥2/M token,缓存命中后 Input 仅 ¥0.1/M。这个价格意味着:

  • 100 万字中文处理成本约 ¥2
  • 一个中型项目全量代码分析约 ¥5
  • 批量处理 10 万条数据约 ¥20

Prompt Cache(自动命中)

DeepSeek 的 cache 完全自动——任何重复出现的 prompt 前缀(≥64 token)自动命中,Input 价格 -90%。响应里的 usage.prompt_cache_hit_tokens 字段显示命中量:

resp = client.chat.completions.create(
    model="deepseek-chat",
    messages=[...],
)
print(resp.usage.prompt_cache_hit_tokens)   # 命中 cache 的 input token 数
print(resp.usage.prompt_cache_miss_tokens)  # 没命中的

实测:固定 system prompt + 工具定义共 5000 token,cache 命中后单次调用 input 成本从 ¥0.005 降到 ¥0.0005——批量场景一晚省好几张百元钞。

开源

模型权重完全开源(MIT 协议),可以在自己的 GPU 上部署:

  • 满血版 FP8:8×H100 (~640GB 显存)
  • 量化版 INT4:2×H100 或 4×A100
  • 通过 vLLM / SGLang 高性能推理
  • 通过 Ollama 体验(推荐 70B 蒸馏版,本地能跑)

MoE 架构特性

671B 总参数 / 37B 激活——推理时只激活 37B,速度接近 37B 模型,质量接近 671B 模型。但显存要求按总参数算(必须把 671B 都加载进显存),所以自己部署门槛极高。绝大多数人通过 API 用即可。

编程

SWE-bench Verified 61.2%,接近第一梯队。在 Cursor、Aider 等工具中通过 OpenAI 兼容 API 接入,体验接近 Claude Sonnet 4 的 80% 水平。

API 调用示例

DeepSeek 提供 OpenAI 兼容 API:

from openai import OpenAI
client = OpenAI(
    api_key="sk-...",
    base_url="https://api.deepseek.com/v1",
)

resp = client.chat.completions.create(
    model="deepseek-chat",        # V3 别名(推理用 deepseek-reasoner = R1)
    temperature=0.0,
    messages=[
        {"role": "system", "content": "你是 Python 高级工程师。"},
        {"role": "user", "content": "Review this code..."},
    ],
)

与 Aider 配合用

Aider 是用 DeepSeek-V3 最方便的 CLI 之一:

export OPENAI_API_KEY=sk-...
export OPENAI_API_BASE=https://api.deepseek.com/v1
aider --model deepseek-chat

成本:一晚做完一个中型 feature 通常 ¥1-3,是用 Claude 的 1/20。

在 Cursor 中接入

Cursor → Settings → Models → Add Model
  Provider: OpenAI
  Base URL: https://api.deepseek.com/v1
  Model: deepseek-chat
  API Key: sk-...

关键参数

参数推荐说明
temperature0.0-0.3编程 / 工具调用
temperature1.0通用对话
top_p0.95DeepSeek 默认
max_tokens显式设默认 4K,长输出务必调高(上限 8K)
frequency_penalty0一般不动
response_format{"type": "json_object"}JSON 模式

定价

项目价格
Input¥1 / 百万 token
Input(缓存命中)¥0.1 / 百万 token
Output¥2 / 百万 token

这个价格是 GLM-5.2 的一半,是 Claude Sonnet 4 的 1/20。

夜间折扣:北京时间 00:30-08:30,所有价格再 -50%。批量数据处理可以定时跑在夜间。

自行部署

如果数据敏感不能上云:

配置性能成本
8×H100 FP8 满血~50 tok/s 单并发~¥30-50 万/月(云租赁)
4×H100 INT4 量化~30 tok/s 单并发~¥15-25 万/月
7B/13B 蒸馏版(Ollama)笔记本可跑几乎免费

蒸馏版是 Meta 把 V3 的输出蒸馏到 Llama / Qwen 上的小模型,能力差距明显但本地能跑。

适用场景

  • 批量处理:价格极低,适合大规模文本分类、摘要、翻译
  • 私有化部署:开源协议允许商用,企业可在自有 GPU 上部署
  • 编程辅助:通过 API 接入 Cursor / Aider,低成本替代 Claude
  • 研究实验:开源权重可用于学术研究和模型微调
  • 后端模型:Coze / Dify / 自建 Agent 平台的低成本后端

与同档对比

维度DeepSeek-V3GLM-5.2Qwen 3
价格¥1/¥2¥2/¥6¥0.8/¥2
SWE-bench61.2%65.3%58.4%
上下文128K128K128K
输出窗口8K(短)32K16K
开源✅ 完全部分✅ 全系列
缓存折扣✅ 自动 -90%

避坑清单

  • 8K 输出窗口最短:长文件 / 长报告生成会被截断。需要 32K+ 输出选 GLM-5.2 或 Qwen。
  • deepseek-chat vs deepseek-reasoner:前者是 V3 通用,后者是 R1 推理模型。别选错。
  • MoE 部署门槛:想自部署"满血版"必须有 8×H100,否则别想,老老实实用 API。
  • dev 服务器并发:免费/低 tier RPM 限制较紧,生产前务必充值升级。
  • 思维链不要直接喂回去:deepseek-chat 不输出思维链,但 reasoner 会。Multi-turn 时要把 reasoning_content 字段剥掉,只把 content 作为 assistant 历史,否则下一轮上下文翻倍。

延伸阅读