Codex CLIOpenAICLIAI Agent深度评测

Codex CLI 深度评测：OpenAI 的终端 AI Agent 好用吗

AIHO 编辑部 · 2026-07-04

一句话结论

如果你已经订阅了 ChatGPT Plus / Pro，Codex CLI 是边际成本几乎为零的终端 Coding Agent——它就是 OpenAI 官方版的 Claude Code。Rust 实现速度快、原生 Windows 沙箱不依赖 WSL、Subagents + MCP + Hooks 三件套齐活，2026 年默认的 gpt-5-codex 靠 compaction 机制能连续跑 24 小时的项目级重构。

但它不是无脑首选：中文理解比 Claude Sonnet 4.5 弱半档、超长任务的稳定性仍略逊、社区 MCP 生态薄一档。喜欢 GPT 系模型、已经在 ChatGPT 订阅里的人选它最划算；想要长任务最稳、上下文最连贯的人还是 Claude Code。

省钱建议：已经付 ChatGPT Plus $20/月的人，Codex CLI 等于白送一个 Agent 用量（2026-03 起 mini 模型额度还涨了 4 倍），不必再为 Claude Code 单开 $20 订阅。先用订阅额度跑 1 周，跑超了再考虑上 Pro $200 或转 API。

Codex CLI 真正在解决的问题

社区讨论"OpenAI 为什么做 Codex CLI"经常停在"对标 Claude Code 抢开发者"。但深一层看，Codex CLI 是在补上 OpenAI 在终端 Agent 这条赛道的三个空白：

第一个空白：ChatGPT 订阅的"沉没成本"。 大量开发者已经每月付 $20 给 ChatGPT Plus，但 ChatGPT 网页/App 只能做对话式问答，干不了"读你的代码库、改文件、跑测试、提 PR"这种活。Claude Code 要单花 $20 订阅，而且国内三关（账号、支付、网络）更难。Codex CLI 把 Agent 能力直接打包进 ChatGPT 订阅——对已订阅用户来说，这是边际成本为零的增量。

第二个空白：Windows 原生 Agent。 Claude Code 在 Windows 上官方推荐走 WSL，PowerShell 原生路径经常跑不通。Codex CLI 用 Rust 写、原生支持 Windows AppContainer 沙箱，PowerShell 直接跑，不必套一层 Linux 子系统。这对 Windows 主力开发者是实质提升——而 gpt-5.1-codex-max 更是首个原生训练支持 Windows 环境的模型。

第三个空白：开源 + 可审计。 Claude Code 是闭源二进制，企业要审计它做了什么只能看日志。Codex CLI 是 Apache-2.0 开源（GitHub: openai/codex，428+ 贡献者），沙箱策略、Hook 行为、工具调用链路都在源码里可查。对有合规要求的企业，这是 Claude Code 给不了的透明度。

终端 Agent 能力：沙箱、Subagents、Hooks

按 Codex CLI 官方 features 文档，2026 的三个主线是速度与实时、Agent 自主性、企业就绪。展开讲最有用的几块：

沙箱执行是底线安全。 默认在受限沙箱里跑命令——macOS 用 Sandbox、Linux 用 Landlock、Windows 用 AppContainer——不会污染主机。沙箱默认还会限制网络，跑 npm install 这类联网命令前会弹 approval 让你确认。这套机制和 Claude Code 的权限模型思路一致，但 Codex CLI 的 Windows 原生沙箱是 Claude Code 没有的。

Subagents 让大任务并行。 把一个大任务拆给多个并行子代理，比如起任务时让一个子代理跑 lint、另一个跑 test，token 用得多但效率高。这是 Codex 2026 把 Subagents 做到 GA 的核心收益。预算敏感时可以关掉 [agents] 配置或换 mini 模型省钱。

Hooks 是企业策略的插入口。 PostToolUse Hook 能在工具调用后插入企业策略（比如改完代码自动跑安全扫描），userpromptsubmit Hook 能在用户提交 prompt 前做合规过滤。这套机制让 Codex CLI 能塞进企业 CI/CD 流水线，而不是只能给个人用。

Image inputs 是被低估的能力。 终端里 codex -i screenshot.png "解释这个错误" 直接读图——把报错截图丢给它，让它定位问题，比手动抄错误信息快。

Smart Approvals 降低打断频率。 只读 / 幂等命令自动放行，写操作和危险命令才弹确认。这比"每个命令都问"省心，又比"全自动放手"安全，是日常重型任务的平衡点。

多模型支持：codex 系列的分层

Codex CLI 不只有一个模型，2026 年是一整套 codex 系列分层：

模型	定位	适用场景
gpt-5-codex	主力编码模型	日常 Agent 任务、重构、跨文件改写
gpt-5-codex-mini	轻量快速档	简单任务、省钱跑量（Plus 额度主力）
gpt-5.3-codex-spark	推理速度档	1000+ token/s，低延迟交互
gpt-5.1-codex-max	重型长程档	24h+ 项目级重构，xhigh reasoning
gpt-5.5	通用旗舰	架构决策、跨语言、通用对话

关键认知：codex 系列是编码专用模型，官方明确建议"仅用于 Codex 或类 Codex 环境中的 agentic 编码任务"。通用对话、写文档这类活用 gpt-5.5 更合适。这也是为什么 Codex CLI 默认推荐 codex 系列而非 5.5——便宜且对齐编码场景。

模型切换很简单：codex -m gpt-5-codex 一行命令换模型。日常用 mini 省钱、重型任务切 max、要通用能力切 5.5。这种分层让 Codex CLI 的 token 经济学比"一个模型打天下"的工具更可控。

注意：Codex CLI 原生只走 OpenAI API。想用本地模型（Ollama / vLLM）或国产模型，得换 Aider——它支持任意 OpenAI 兼容 endpoint，能指向 DeepSeek / Qwen / GLM。这是 Aider 在国内场景的核心优势，Codex CLI 给不了。

代码生成质量：gpt-5-codex 能打几分

按 gpt-5.1-codex-max 模型卡引用的官方基准：

基准	gpt-5.1-codex (high)	gpt-5.1-codex-max (xhigh)
SWE-bench Verified (n=500)	73.7%	77.9%
SWE-Lancer IC SWE	66.3%	79.9%
Terminal-Bench 2.0	52.8%	58.1%

77.9% 的 SWE-bench Verified 是当前编码模型第一梯队。但基准分只是参考，真实体感看几个维度：

强项：结构化输出和 API 理解。 用 OpenAPI spec 生成 TypeScript client、把 Python 模块翻译成 Go 并保持 API 兼容、生成 JSDoc 注释和 README——这类"规范度高、格式要求严"的任务，GPT-5 系的指令遵循能力确实稳，输出比 Claude Code 更工整。

强项：长程 compaction。 gpt-5.1-codex-max 的 compaction 机制能在接近上下文上限时自动修剪历史、保留关键上下文，支持"多小时 agent 循环"。内部评测显示能独立工作 24 小时以上反复迭代修测试。这是项目级大型重构的硬需求。

弱项：中文理解。 中文注释和需求的理解有时不如 Claude，复杂中文语境下建议用英文 prompt 更稳。这点在 Codex CLI GA 新闻里也明确提到——"中文项目为主"是推荐选 Claude Code 的场景之一。

弱项：超长任务稳定性。 5 小时以上的长任务偶尔会"失联"，整体不如 Claude Sonnet 4.5 稳。compaction 缓解了上下文爆炸，但没完全抹平稳定性差距。

安全提醒： 开启联网 / web search 会引入提示注入风险。官方建议把模型当作"额外的审查者"而非人类代码审查的替代，保留 human-in-the-loop。敏感仓库慎开联网。

与 Claude Code 对比

这两个是终端 Agent 赛道的直接竞品，形态几乎镜像。差异主要在三处：

模型偏好是根本分水岭。 Codex CLI 走 OpenAI 的 gpt-5-codex 系列，Claude Code 走 Anthropic 的 Sonnet/Opus。喜欢 GPT 的输出风格（结构化、规范度高、API 理解强）选 Codex；喜欢 Claude 的风格（长上下文连贯、中文更懂、长任务更稳）选 Claude Code。这不是"谁更强"，是"哪套模型更对你的胃口"。

Windows 原生是 Codex 的独占优势。 Claude Code 在 Windows 官方推荐 WSL，原生 PowerShell 路径经常踩坑。Codex CLI 的 Rust 二进制 + AppContainer 沙箱在 Windows 上原生跑，gpt-5.1-codex-max 更是首个原生训练支持 Windows 的模型。Windows 主力开发者，Codex CLI 体验明显更顺。

生态与社区是 Claude Code 的优势。 Claude Code 的 MCP 是"一等公民"——Anthropic 自家协议、支持最完整、社区 Server 最多。Codex CLI 也支持 MCP，但生态厚度薄一档。另外 Claude Code 的 slash 命令体系（/compact /clear /agents /batch）更成熟，长会话上下文管理更顺手。

详细的 1v1 对比见 Claude Code vs Codex CLI 双雄对比。

价格与运行成本

Codex CLI 的价格策略是它对个人用户杀伤力最大的一招——和 ChatGPT 订阅打包：

档位	价格	关键点
ChatGPT Plus	$20/月	含 Codex CLI 用量，mini 模型额度（2026-03 起 +4×）
ChatGPT Pro	$200/月	更高额度 + 优先处理 + Spark 研究预览
Business / Edu / Team	$25-30/用户/月起	团队管理 + SSO + Codex 含在内
纯 API	按 token	gpt-5.5 ≈ $1.25/$10 per 1M token（input/output）

对比 Claude Code：Claude Code 的 Pro $20 / Max $100-$200 是单独买，已付 ChatGPT Plus 的人想用 Claude Code 得再开一份订阅。而 Codex CLI 对已订阅 ChatGPT 的人近乎免费——这一招对个人用户杀伤力巨大。

国内付款：ChatGPT Plus / Pro 支持支付宝，比 Claude Code 的"海外卡"门槛低。但网络这关两个都绕不开——OpenAI 风控严，别频繁切 IP，账号被封基本无法找回。

API 模式（BYOK）：重度用户可以直接走 OpenAI API 按 token 计费，gpt-5.5 约 $1.25/$10 per 1M token。但 codex 系列的 API 访问发布初期需等待，先开放 ChatGPT 订阅。预算敏感时用 mini 模型跑日常、重型任务才切 max，是控制成本的关键。

适用场景

✅ 已经订阅 ChatGPT Plus / Pro 的人——边际成本几乎为零，最划算的入口
✅ Windows 原生开发者——AppContainer 沙箱 + 原生 PowerShell，不必套 WSL
✅ 终端 / TMUX / Vim 重度用户——和 Claude Code 一样的 CLI 心智
✅ 需要远程 SSH / 容器中跑 Agent——headless 友好，WebSocket 远程模式
✅ 偏好 GPT 系输出风格——结构化、API 理解强、规范度高
✅ 有合规审计需求的企业——Apache-2.0 开源、Hook 可插策略

不推荐场景

国内纯内网：OpenAI API 需要稳定代理，账号被封难找回。国内裸跑、预算敏感、想用国产模型的，去 Aider + DeepSeek / GLM 更经济——Aider 支持任意 OpenAI 兼容 endpoint，付款走支付宝零摩擦。

重度 GUI 党：Codex CLI 是终端工具，没有图形化 diff 预览、没有 Tab 补全。想要"所见即所得"的图形界面去 Cursor / Trae。

要 Claude 长上下文风格的人：Claude Sonnet 4.5 的上下文连贯性和长任务稳定性仍是第一梯队，复杂中文项目、超大 monorepo 长任务，Claude Code 更稳。Codex CLI 的 compaction 缓解了上下文爆炸但没抹平稳定性差距。

只做基础代码补全：杀鸡用牛刀。单文件编辑、Tab 补全这类日常活，GitHub Copilot 更经济，不必上 Agent。

预算极敏感且没订阅 ChatGPT：Codex CLI 的性价比前提是"已经付 ChatGPT Plus"。如果你没订阅、纯按 API 跑，重度使用月账单可能比 Aider + DeepSeek 贵一个数量级。

FAQ

Q：Codex CLI 和 Claude Code 到底选哪个？ A：看模型偏好和订阅状态。已经付 ChatGPT Plus 选 Codex CLI（近乎免费）；已经付 Claude Pro/Max 选 Claude Code。Windows 原生开发者偏 Codex CLI；长任务稳定性、中文项目偏 Claude Code。两者都是 CLI Agent，形态镜像，差异主要在模型和生态。

Q：国内能用 Codex CLI 吗？ A：能用但有门槛。需要 OpenAI 账号 + 稳定代理，Plus / Pro 订阅可走支付宝。OpenAI 风控严，别频繁切 IP。国内裸跑、想用国产模型的建议用 Aider 接 DeepSeek / GLM。

Q：Codex CLI 支持本地模型吗？ A：原生只走 OpenAI API。要用本地模型（Ollama / vLLM）或国产模型，换 Aider——它支持任意 OpenAI 兼容 endpoint。

Q：Subagents / Hooks / MCP 是什么？ A：Subagents 把大任务拆给多个并行子代理；Hooks（PostToolUse / userpromptsubmit）在工具调用前后插入企业策略；MCP 连外部工具（GitHub / 数据库 / Slack）。Codex 2026 把这三块都做到了 GA。

Q：gpt-5-codex 和 gpt-5.5 有什么区别？ A：codex 系列是编码专用模型，专为 agentic 编码训练，便宜且对齐编码场景；gpt-5.5 是通用旗舰，适合架构决策和通用对话。日常 Agent 任务用 codex 系列，要通用能力才切 5.5。