Name: GPT-5
Brand: OpenAI

概述

GPT-5 是 OpenAI 于 2025 年 8 月发布的旗舰模型。400K token 上下文窗口和 128K 输出窗口使其成为处理超长内容的最佳选择之一。在推理、数学、多模态方面均为顶级水平。

核心能力

超长上下文

400K token 的上下文窗口是 Claude Sonnet 4（200K）的两倍。对于需要分析整个代码仓库、超长文档或多文件对比的场景，GPT-5 是更好的选择。但实测上下文超过 200K 后质量下降明显，参考 Context Engineering 里的「中间遗忘」现象。

推理能力

在 MATH-500 上拿到 98.4%，GPQA Diamond 62.5%，科学推理能力领先。GPT-5 是 OpenAI 把 GPT 主线和 o-series 推理线合并后的产物——内置 reasoning effort 控制：

from openai import OpenAI
client = OpenAI()

resp = client.chat.completions.create(
    model="gpt-5",
    reasoning_effort="high",   # low / medium / high
    messages=[{"role": "user", "content": "Prove that..."}],
)

high 模式下模型会用大量 reasoning token 思考再回答，复杂数学/算法成功率显著上升，但 output token 消费增加 3-5 倍。

多模态

原生支持图片、音频和视频输入。可以：

分析 UI 截图并生成前端代码
理解白板照片中的架构图
分析数据图表
转录 + 理解音频内容

编程

SWE-bench Verified 68.0%，略低于 Claude Sonnet 4 的 72.7%。实际使用中，Cursor 用户反馈 Claude Sonnet 4 在多文件改写和代码审查方面更稳定，但 GPT-5 在算法实现和数学密集型代码上更强。

API 调用示例

基础调用

from openai import OpenAI
client = OpenAI(api_key="sk-...")

resp = client.chat.completions.create(
    model="gpt-5",
    messages=[
        {"role": "system", "content": "You are a senior engineer."},
        {"role": "user", "content": "Refactor this function."},
    ],
    temperature=1,           # 推理模型保持默认 1
)
print(resp.choices[0].message.content)

Structured Outputs（强约束 JSON）

GPT-5 的 Structured Outputs 是工具调用最稳的：

from pydantic import BaseModel

class CodeReview(BaseModel):
    severity: str
    issues: list[str]
    suggestions: list[str]

resp = client.chat.completions.parse(
    model="gpt-5",
    response_format=CodeReview,
    messages=[{"role": "user", "content": "Review:\n" + code}],
)
review: CodeReview = resp.choices[0].message.parsed

strict: true 模式保证 100% 符合 schema，省去后处理校验。

Prompt Cache（自动开启）

OpenAI 的 cache 是自动触发的——任何 ≥1024 token 的前缀重复出现就自动命中，Cache Read 价格 $0.125/M（-90%）：

# 第一次调用：input 完整计费
# 第二次同样 system prompt 开头：input 前缀自动 cache 命中
# 无需任何代码改动，OpenAI 后台自动判断

要利用好它，动态内容必须放在 messages 末尾，不要在 system 里插时间戳。

关键参数

参数	推荐值	说明
`temperature`	1（默认）	GPT-5 是推理模型，不要改 temperature，详见 Temperature 与 Top-P
`reasoning_effort`	low / medium / high	控制内部推理深度，复杂任务 high
`max_completion_tokens`	显式设	GPT-5 用这个而非 `max_tokens`，老参数被废弃
`seed`	固定值	best-effort 复现，配合 `system_fingerprint` 验证
`top_p`	1（默认）	不要同时调 temperature 和 top_p

定价

项目	价格
Input	$1.25 / 百万 token
Output	$10 / 百万 token
Cached Input	$0.125 / 百万 token
Batch API（24h）	-50%

GPT-5 的 Input 价格仅为 Claude Sonnet 4 的 42%，Output 价格低 33%。对于高吞吐场景（批量处理、大量 API 调用），GPT-5 的成本优势明显。

实际账单注意

reasoning token 算 output：开 reasoning_effort=high 时单条对话 output 可能是普通模式的 3-5 倍。账单会单独显示 reasoning_tokens 字段。
Batch API：异步批量请求 24 小时内出结果，所有价格 -50%，非常适合离线数据处理。

限流（Tier 体系）

OpenAI 的 rate limit 按账户消费分 5 个 Tier：

Tier	月消费门槛	RPM	TPM
Tier 1	$5	500	30K
Tier 2	$50	5,000	450K
Tier 3	$100	5,000	800K
Tier 4	$250	10,000	2M
Tier 5	$1,000+	10,000	30M

生产环境跑量前先把 Tier 提到 3+，否则会频繁 429。Token 限流（TPM）比请求限流（RPM）更容易先打到，长 prompt 场景尤其。

与 Claude Sonnet 4 怎么选

维度	GPT-5	Claude Sonnet 4
编程（Cursor/Claude Code）	★★★★☆	★★★★★
推理/数学	★★★★★	★★★★☆
上下文长度	400K	200K
多模态	原生（图+音+视频）	仅图片
工具调用 / Structured Outputs	★★★★★	★★★★★
Input 价格	$1.25/M	$3/M
Output 价格	$10/M	$15/M
Agent 工具调用稳定性	★★★★☆	★★★★★
国内可用	❌	❌

建议：主力编程用 Claude Sonnet 4，需要超长上下文 / 多模态 / 复杂推理时切 GPT-5。混搭最香。

避坑清单

不要再用 max_tokens：GPT-5 上是 max_completion_tokens。老代码迁过来会报错或行为异常。
不要把 temperature 设 0：推理模型设 0 反而降质量，详见 Temperature 与 Top-P。
reasoning_effort 不要默认 high：贵且慢。默认 medium，遇到难题再升 high。
400K 不要塞满：上下文超过 200K 后召回精度下降明显，配合 RAG 或检索式压缩更靠谱。
多模态 input 也算 token：一张 1024×1024 图片约消耗 ~1000 input token，批量处理要算账。

GPT-5

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述