GPT-5
OpenAI 2025 年旗舰模型,400K 上下文 + 128K 输出 + 多模态,推理能力顶级,API 价格低于 Claude Sonnet 4。
规格
- 厂商
- OpenAI
- 发布日期
- 2025/8/7
- 类型
- reasoning
- 上下文窗口
- 400K tokens
- 最大输出
- 128K tokens
- 定价
- Input $1.25/M · Output $10/M · Cached $0.125/M
- API 兼容
- openai
基准测试
✓ 优势
- •400K 超长上下文,全项目代码分析无压力
- •128K 输出窗口,长文件一次生成
- •多模态原生支持(图片、音频、视频)
- •推理能力顶级,数学/科学/代码全面
- •API 价格比 Sonnet 4 更低
⚠ 不足
- •国内无官方 API,需走中转
- •编程实操中不如 Claude Sonnet 4 稳定(Cursor 用户反馈)
- •延迟略高,流式首 token 慢于 Sonnet 4
- •知识截止较早
适用场景
概述
GPT-5 是 OpenAI 于 2025 年 8 月发布的旗舰模型。400K token 上下文窗口和 128K 输出窗口使其成为处理超长内容的最佳选择之一。在推理、数学、多模态方面均为顶级水平。
核心能力
超长上下文
400K token 的上下文窗口是 Claude Sonnet 4(200K)的两倍。对于需要分析整个代码仓库、超长文档或多文件对比的场景,GPT-5 是更好的选择。但实测上下文超过 200K 后质量下降明显,参考 Context Engineering 里的「中间遗忘」现象。
推理能力
在 MATH-500 上拿到 98.4%,GPQA Diamond 62.5%,科学推理能力领先。GPT-5 是 OpenAI 把 GPT 主线和 o-series 推理线合并后的产物——内置 reasoning effort 控制:
from openai import OpenAI
client = OpenAI()
resp = client.chat.completions.create(
model="gpt-5",
reasoning_effort="high", # low / medium / high
messages=[{"role": "user", "content": "Prove that..."}],
)
high 模式下模型会用大量 reasoning token 思考再回答,复杂数学/算法成功率显著上升,但 output token 消费增加 3-5 倍。
多模态
原生支持图片、音频和视频输入。可以:
- 分析 UI 截图并生成前端代码
- 理解白板照片中的架构图
- 分析数据图表
- 转录 + 理解音频内容
编程
SWE-bench Verified 68.0%,略低于 Claude Sonnet 4 的 72.7%。实际使用中,Cursor 用户反馈 Claude Sonnet 4 在多文件改写和代码审查方面更稳定,但 GPT-5 在算法实现和数学密集型代码上更强。
API 调用示例
基础调用
from openai import OpenAI
client = OpenAI(api_key="sk-...")
resp = client.chat.completions.create(
model="gpt-5",
messages=[
{"role": "system", "content": "You are a senior engineer."},
{"role": "user", "content": "Refactor this function."},
],
temperature=1, # 推理模型保持默认 1
)
print(resp.choices[0].message.content)
Structured Outputs(强约束 JSON)
GPT-5 的 Structured Outputs 是工具调用最稳的:
from pydantic import BaseModel
class CodeReview(BaseModel):
severity: str
issues: list[str]
suggestions: list[str]
resp = client.chat.completions.parse(
model="gpt-5",
response_format=CodeReview,
messages=[{"role": "user", "content": "Review:\n" + code}],
)
review: CodeReview = resp.choices[0].message.parsed
strict: true 模式保证 100% 符合 schema,省去后处理校验。
Prompt Cache(自动开启)
OpenAI 的 cache 是自动触发的——任何 ≥1024 token 的前缀重复出现就自动命中,Cache Read 价格 $0.125/M(-90%):
# 第一次调用:input 完整计费
# 第二次同样 system prompt 开头:input 前缀自动 cache 命中
# 无需任何代码改动,OpenAI 后台自动判断
要利用好它,动态内容必须放在 messages 末尾,不要在 system 里插时间戳。
关键参数
| 参数 | 推荐值 | 说明 |
|---|---|---|
temperature | 1(默认) | GPT-5 是推理模型,不要改 temperature,详见 Temperature 与 Top-P |
reasoning_effort | low / medium / high | 控制内部推理深度,复杂任务 high |
max_completion_tokens | 显式设 | GPT-5 用这个而非 max_tokens,老参数被废弃 |
seed | 固定值 | best-effort 复现,配合 system_fingerprint 验证 |
top_p | 1(默认) | 不要同时调 temperature 和 top_p |
定价
| 项目 | 价格 |
|---|---|
| Input | $1.25 / 百万 token |
| Output | $10 / 百万 token |
| Cached Input | $0.125 / 百万 token |
| Batch API(24h) | -50% |
GPT-5 的 Input 价格仅为 Claude Sonnet 4 的 42%,Output 价格低 33%。对于高吞吐场景(批量处理、大量 API 调用),GPT-5 的成本优势明显。
实际账单注意
- reasoning token 算 output:开
reasoning_effort=high时单条对话 output 可能是普通模式的 3-5 倍。账单会单独显示reasoning_tokens字段。 - Batch API:异步批量请求 24 小时内出结果,所有价格 -50%,非常适合离线数据处理。
限流(Tier 体系)
OpenAI 的 rate limit 按账户消费分 5 个 Tier:
| Tier | 月消费门槛 | RPM | TPM |
|---|---|---|---|
| Tier 1 | $5 | 500 | 30K |
| Tier 2 | $50 | 5,000 | 450K |
| Tier 3 | $100 | 5,000 | 800K |
| Tier 4 | $250 | 10,000 | 2M |
| Tier 5 | $1,000+ | 10,000 | 30M |
生产环境跑量前先把 Tier 提到 3+,否则会频繁 429。Token 限流(TPM)比请求限流(RPM)更容易先打到,长 prompt 场景尤其。
与 Claude Sonnet 4 怎么选
| 维度 | GPT-5 | Claude Sonnet 4 |
|---|---|---|
| 编程(Cursor/Claude Code) | ★★★★☆ | ★★★★★ |
| 推理/数学 | ★★★★★ | ★★★★☆ |
| 上下文长度 | 400K | 200K |
| 多模态 | 原生(图+音+视频) | 仅图片 |
| 工具调用 / Structured Outputs | ★★★★★ | ★★★★★ |
| Input 价格 | $1.25/M | $3/M |
| Output 价格 | $10/M | $15/M |
| Agent 工具调用稳定性 | ★★★★☆ | ★★★★★ |
| 国内可用 | ❌ | ❌ |
建议:主力编程用 Claude Sonnet 4,需要超长上下文 / 多模态 / 复杂推理时切 GPT-5。混搭最香。
避坑清单
- 不要再用
max_tokens:GPT-5 上是max_completion_tokens。老代码迁过来会报错或行为异常。 - 不要把 temperature 设 0:推理模型设 0 反而降质量,详见 Temperature 与 Top-P。
- reasoning_effort 不要默认 high:贵且慢。默认 medium,遇到难题再升 high。
- 400K 不要塞满:上下文超过 200K 后召回精度下降明显,配合 RAG 或检索式压缩更靠谱。
- 多模态 input 也算 token:一张 1024×1024 图片约消耗 ~1000 input token,批量处理要算账。
延伸阅读
- 对比同档:Claude Sonnet 4 / Gemini 2.5 Pro
- 调用模式:Function Calling
- 长上下文:Context Engineering
- 推理参数:Temperature 与 Top-P