GPT-5.1-Codex-Max
OpenAI 2025 年 11 月发布的专用 agentic 编码模型,首创 compaction 跨窗口机制可连续工作 24+ 小时,SWE-bench Verified 77.9%,首个原生支持 Windows。
规格
- 厂商
- OpenAI
- 发布日期
- 2025/11/19
- 类型
- coding
- 上下文窗口
- 400K tokens
- 最大输出
- 128K tokens
- 定价
- 随 Codex 订阅(Plus/Pro/Business/Enterprise)
- API 兼容
- openai
基准测试
✓ 优势
- •专为 agentic 编码训练,SWE-bench Verified 77.9%
- •compaction 机制跨多上下文窗口,可连续工作 24+ 小时
- •首个原生训练支持 Windows 环境的模型
- •medium 档比上代省 30% thinking token
- •深度集成 Codex CLI / IDE / 云 / code review
⚠ 不足
- •专用模型,不适合通用对话(官方明确建议仅用于编码)
- •国内无官方 API,需走中转
- •API 访问发布初期需等待,先开放 ChatGPT 订阅
- •开启联网/web search 会引入提示注入风险
适用场景
概述
GPT-5.1-Codex-Max 是 OpenAI 于 2025 年 11 月 19 日发布的专用 agentic 编码模型,基于为软件工程、数学和研究专门训练的推理基座。最大亮点是 compaction 机制——能跨多个上下文窗口维持连贯性,让模型在百万 token 级单任务上连续工作 24 小时以上,完成此前因上下文限制而失败的项目级重构。它是 Codex CLI 的默认模型。
注意:这是编码专用模型,官方明确建议「仅用于 Codex 或类 Codex 环境中的 agentic 编码任务」,通用任务请用 GPT-5 主线。
核心能力
compaction 与长程工作
当接近上下文窗口上限时,模型自动修剪历史、保留关键上下文,从而支持「多小时 agent 循环」、深度调试和大规模重构。内部评测显示模型能独立工作 24 小时以上,反复迭代实现并修复测试失败。
编程基准
| 基准 | GPT-5.1-Codex (high) | GPT-5.1-Codex-Max (xhigh) |
|---|---|---|
| SWE-bench Verified (n=500) | 73.7% | 77.9% |
| SWE-Lancer IC SWE | 66.3% | 79.9% |
| Terminal-Bench 2.0 | 52.8% | 58.1% |
原生 Windows 支持
这是首个原生训练可在 Windows 环境操作的模型,对 Windows 开发者的本地 agent 体验是实质提升。
reasoning effort 档位
- medium:日常推荐档,比上代在 SWE-bench 上更强且省 30% thinking token
- xhigh:非延迟敏感、需要深度思考的任务
安装与使用
npm i -g @openai/codex
GPT-5.1-Codex-Max 已替代 GPT-5.1-Codex 成为 Codex 各端默认模型。默认运行在安全沙箱中(限制文件写入、禁用网络访问)。
⚠️ 安全提醒:开启联网 / web search 会引入提示注入风险。官方建议把模型当作「额外的审查者」而非人类代码审查的替代。关于提示注入风险见 Hallucination。
可用性
| 计划 | 状态 |
|---|---|
| ChatGPT Plus / Pro / Business / Edu / Enterprise | 已可用 |
| API(Codex CLI 开发者) | 随后开放 |
与同档模型怎么选
| 维度 | GPT-5.1-Codex-Max | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|
| 定位 | 编码专用 agent | 通用旗舰(强编程) | 通用多模态 |
| SWE-bench Verified | 77.9% | SOTA | 76.2% |
| 长程工作 | 24h+ compaction | 强 | 强 |
| Windows 原生 | ✅ | — | — |
| 通用对话 | 不推荐 | ✅ | ✅ |
建议:纯做长程自主编码、跑 Codex 工作流选它;要兼顾通用能力选 Claude Opus 4.5 或 Gemini 3 Pro。
避坑清单
- 别拿它做通用对话:官方明确这是编码专用模型,通用任务用 GPT-5。
- 联网即风险:开 web search 引入提示注入,敏感仓库慎用。
- 当审查者不是替代者:保留 human-in-the-loop,模型输出需人工把关。
- 国内无直连:需走中转。
延伸阅读
- 对比同档:Claude Opus 4.5 / Gemini 3 Pro / GPT-5
- 配套工具:Codex CLI
- 工作流:2026 终端 AI Agent 怎么选