跳到主内容
AIHO 2026 全新改版上线
reasoningOpenAI

GPT-5

OpenAI 2025 年旗舰模型,400K 上下文 + 128K 输出 + 多模态,推理能力顶级,API 价格低于 Claude Sonnet 4。

规格

厂商
OpenAI
发布日期
2025/8/7
类型
reasoning
上下文窗口
400K tokens
最大输出
128K tokens
定价
Input $1.25/M · Output $10/M · Cached $0.125/M
API 兼容
openai

基准测试

68.0%
SWE-bench Verified
94.6%
HumanEval
91.2%
MMLU
62.5%
GPQA Diamond
98.4%
MATH-500

✓ 优势

  • 400K 超长上下文,全项目代码分析无压力
  • 128K 输出窗口,长文件一次生成
  • 多模态原生支持(图片、音频、视频)
  • 推理能力顶级,数学/科学/代码全面
  • API 价格比 Sonnet 4 更低

⚠ 不足

  • 国内无官方 API,需走中转
  • 编程实操中不如 Claude Sonnet 4 稳定(Cursor 用户反馈)
  • 延迟略高,流式首 token 慢于 Sonnet 4
  • 知识截止较早

适用场景

通用推理与数学多模态分析(图片/截图理解)长文档/全项目代码分析ChatGPT / API 对话

概述

GPT-5 是 OpenAI 于 2025 年 8 月发布的旗舰模型。400K token 上下文窗口和 128K 输出窗口使其成为处理超长内容的最佳选择之一。在推理、数学、多模态方面均为顶级水平。

核心能力

超长上下文

400K token 的上下文窗口是 Claude Sonnet 4(200K)的两倍。对于需要分析整个代码仓库、超长文档或多文件对比的场景,GPT-5 是更好的选择。但实测上下文超过 200K 后质量下降明显,参考 Context Engineering 里的「中间遗忘」现象。

推理能力

在 MATH-500 上拿到 98.4%,GPQA Diamond 62.5%,科学推理能力领先。GPT-5 是 OpenAI 把 GPT 主线和 o-series 推理线合并后的产物——内置 reasoning effort 控制:

from openai import OpenAI
client = OpenAI()

resp = client.chat.completions.create(
    model="gpt-5",
    reasoning_effort="high",   # low / medium / high
    messages=[{"role": "user", "content": "Prove that..."}],
)

high 模式下模型会用大量 reasoning token 思考再回答,复杂数学/算法成功率显著上升,但 output token 消费增加 3-5 倍。

多模态

原生支持图片、音频和视频输入。可以:

  • 分析 UI 截图并生成前端代码
  • 理解白板照片中的架构图
  • 分析数据图表
  • 转录 + 理解音频内容

编程

SWE-bench Verified 68.0%,略低于 Claude Sonnet 4 的 72.7%。实际使用中,Cursor 用户反馈 Claude Sonnet 4 在多文件改写和代码审查方面更稳定,但 GPT-5 在算法实现和数学密集型代码上更强。

API 调用示例

基础调用

from openai import OpenAI
client = OpenAI(api_key="sk-...")

resp = client.chat.completions.create(
    model="gpt-5",
    messages=[
        {"role": "system", "content": "You are a senior engineer."},
        {"role": "user", "content": "Refactor this function."},
    ],
    temperature=1,           # 推理模型保持默认 1
)
print(resp.choices[0].message.content)

Structured Outputs(强约束 JSON)

GPT-5 的 Structured Outputs 是工具调用最稳的:

from pydantic import BaseModel

class CodeReview(BaseModel):
    severity: str
    issues: list[str]
    suggestions: list[str]

resp = client.chat.completions.parse(
    model="gpt-5",
    response_format=CodeReview,
    messages=[{"role": "user", "content": "Review:\n" + code}],
)
review: CodeReview = resp.choices[0].message.parsed

strict: true 模式保证 100% 符合 schema,省去后处理校验。

Prompt Cache(自动开启)

OpenAI 的 cache 是自动触发的——任何 ≥1024 token 的前缀重复出现就自动命中,Cache Read 价格 $0.125/M(-90%):

# 第一次调用:input 完整计费
# 第二次同样 system prompt 开头:input 前缀自动 cache 命中
# 无需任何代码改动,OpenAI 后台自动判断

要利用好它,动态内容必须放在 messages 末尾,不要在 system 里插时间戳。

关键参数

参数推荐值说明
temperature1(默认)GPT-5 是推理模型,不要改 temperature,详见 Temperature 与 Top-P
reasoning_effortlow / medium / high控制内部推理深度,复杂任务 high
max_completion_tokens显式设GPT-5 用这个而非 max_tokens,老参数被废弃
seed固定值best-effort 复现,配合 system_fingerprint 验证
top_p1(默认)不要同时调 temperature 和 top_p

定价

项目价格
Input$1.25 / 百万 token
Output$10 / 百万 token
Cached Input$0.125 / 百万 token
Batch API(24h)-50%

GPT-5 的 Input 价格仅为 Claude Sonnet 4 的 42%,Output 价格低 33%。对于高吞吐场景(批量处理、大量 API 调用),GPT-5 的成本优势明显。

实际账单注意

  • reasoning token 算 output:开 reasoning_effort=high 时单条对话 output 可能是普通模式的 3-5 倍。账单会单独显示 reasoning_tokens 字段。
  • Batch API:异步批量请求 24 小时内出结果,所有价格 -50%,非常适合离线数据处理。

限流(Tier 体系)

OpenAI 的 rate limit 按账户消费分 5 个 Tier:

Tier月消费门槛RPMTPM
Tier 1$550030K
Tier 2$505,000450K
Tier 3$1005,000800K
Tier 4$25010,0002M
Tier 5$1,000+10,00030M

生产环境跑量前先把 Tier 提到 3+,否则会频繁 429。Token 限流(TPM)比请求限流(RPM)更容易先打到,长 prompt 场景尤其。

与 Claude Sonnet 4 怎么选

维度GPT-5Claude Sonnet 4
编程(Cursor/Claude Code)★★★★☆★★★★★
推理/数学★★★★★★★★★☆
上下文长度400K200K
多模态原生(图+音+视频)仅图片
工具调用 / Structured Outputs★★★★★★★★★★
Input 价格$1.25/M$3/M
Output 价格$10/M$15/M
Agent 工具调用稳定性★★★★☆★★★★★
国内可用

建议:主力编程用 Claude Sonnet 4,需要超长上下文 / 多模态 / 复杂推理时切 GPT-5。混搭最香。

避坑清单

  • 不要再用 max_tokens:GPT-5 上是 max_completion_tokens。老代码迁过来会报错或行为异常。
  • 不要把 temperature 设 0:推理模型设 0 反而降质量,详见 Temperature 与 Top-P
  • reasoning_effort 不要默认 high:贵且慢。默认 medium,遇到难题再升 high。
  • 400K 不要塞满:上下文超过 200K 后召回精度下降明显,配合 RAG 或检索式压缩更靠谱。
  • 多模态 input 也算 token:一张 1024×1024 图片约消耗 ~1000 input token,批量处理要算账。

延伸阅读