跳到主内容
AIHO 2026 全新改版上线
codingOpenAI

GPT-5.1-Codex-Max

OpenAI 2025 年 11 月发布的专用 agentic 编码模型,首创 compaction 跨窗口机制可连续工作 24+ 小时,SWE-bench Verified 77.9%,首个原生支持 Windows。

规格

厂商
OpenAI
发布日期
2025/11/19
类型
coding
上下文窗口
400K tokens
最大输出
128K tokens
定价
随 Codex 订阅(Plus/Pro/Business/Enterprise)
API 兼容
openai

基准测试

77.9%
SWE-bench Verified
79.9%
SWE-Lancer IC SWE
58.1%
Terminal-Bench 2.0

✓ 优势

  • 专为 agentic 编码训练,SWE-bench Verified 77.9%
  • compaction 机制跨多上下文窗口,可连续工作 24+ 小时
  • 首个原生训练支持 Windows 环境的模型
  • medium 档比上代省 30% thinking token
  • 深度集成 Codex CLI / IDE / 云 / code review

⚠ 不足

  • 专用模型,不适合通用对话(官方明确建议仅用于编码)
  • 国内无官方 API,需走中转
  • API 访问发布初期需等待,先开放 ChatGPT 订阅
  • 开启联网/web search 会引入提示注入风险

适用场景

长程 agentic 编码(多小时自主任务)项目级大型重构PR 创建与代码审查前端编码

概述

GPT-5.1-Codex-Max 是 OpenAI 于 2025 年 11 月 19 日发布的专用 agentic 编码模型,基于为软件工程、数学和研究专门训练的推理基座。最大亮点是 compaction 机制——能跨多个上下文窗口维持连贯性,让模型在百万 token 级单任务上连续工作 24 小时以上,完成此前因上下文限制而失败的项目级重构。它是 Codex CLI 的默认模型。

注意:这是编码专用模型,官方明确建议「仅用于 Codex 或类 Codex 环境中的 agentic 编码任务」,通用任务请用 GPT-5 主线。

核心能力

compaction 与长程工作

当接近上下文窗口上限时,模型自动修剪历史、保留关键上下文,从而支持「多小时 agent 循环」、深度调试和大规模重构。内部评测显示模型能独立工作 24 小时以上,反复迭代实现并修复测试失败。

编程基准

基准GPT-5.1-Codex (high)GPT-5.1-Codex-Max (xhigh)
SWE-bench Verified (n=500)73.7%77.9%
SWE-Lancer IC SWE66.3%79.9%
Terminal-Bench 2.052.8%58.1%

原生 Windows 支持

这是首个原生训练可在 Windows 环境操作的模型,对 Windows 开发者的本地 agent 体验是实质提升。

reasoning effort 档位

  • medium:日常推荐档,比上代在 SWE-bench 上更强且省 30% thinking token
  • xhigh:非延迟敏感、需要深度思考的任务

安装与使用

npm i -g @openai/codex

GPT-5.1-Codex-Max 已替代 GPT-5.1-Codex 成为 Codex 各端默认模型。默认运行在安全沙箱中(限制文件写入、禁用网络访问)。

⚠️ 安全提醒:开启联网 / web search 会引入提示注入风险。官方建议把模型当作「额外的审查者」而非人类代码审查的替代。关于提示注入风险见 Hallucination

可用性

计划状态
ChatGPT Plus / Pro / Business / Edu / Enterprise已可用
API(Codex CLI 开发者)随后开放

与同档模型怎么选

维度GPT-5.1-Codex-MaxClaude Opus 4.5Gemini 3 Pro
定位编码专用 agent通用旗舰(强编程)通用多模态
SWE-bench Verified77.9%SOTA76.2%
长程工作24h+ compaction
Windows 原生
通用对话不推荐

建议:纯做长程自主编码、跑 Codex 工作流选它;要兼顾通用能力选 Claude Opus 4.5Gemini 3 Pro

避坑清单

  • 别拿它做通用对话:官方明确这是编码专用模型,通用任务用 GPT-5
  • 联网即风险:开 web search 引入提示注入,敏感仓库慎用。
  • 当审查者不是替代者:保留 human-in-the-loop,模型输出需人工把关。
  • 国内无直连:需走中转。

延伸阅读