跳到主内容
AIHO 2026 全新改版上线
Codex CLIOpenAICLIAI Agent深度评测

Codex CLI 深度评测:OpenAI 的终端 AI Agent 好用吗

AIHO 编辑部 · 2026-07-04

一句话结论

如果你已经订阅了 ChatGPT Plus / Pro,Codex CLI 是边际成本几乎为零的终端 Coding Agent——它就是 OpenAI 官方版的 Claude Code。Rust 实现速度快、原生 Windows 沙箱不依赖 WSL、Subagents + MCP + Hooks 三件套齐活,2026 年默认的 gpt-5-codex 靠 compaction 机制能连续跑 24 小时的项目级重构。

但它不是无脑首选:中文理解比 Claude Sonnet 4.5 弱半档、超长任务的稳定性仍略逊、社区 MCP 生态薄一档。喜欢 GPT 系模型、已经在 ChatGPT 订阅里的人选它最划算;想要长任务最稳、上下文最连贯的人还是 Claude Code。

省钱建议:已经付 ChatGPT Plus $20/月的人,Codex CLI 等于白送一个 Agent 用量(2026-03 起 mini 模型额度还涨了 4 倍),不必再为 Claude Code 单开 $20 订阅。先用订阅额度跑 1 周,跑超了再考虑上 Pro $200 或转 API。

Codex CLI 真正在解决的问题

社区讨论"OpenAI 为什么做 Codex CLI"经常停在"对标 Claude Code 抢开发者"。但深一层看,Codex CLI 是在补上 OpenAI 在终端 Agent 这条赛道的三个空白:

第一个空白:ChatGPT 订阅的"沉没成本"。 大量开发者已经每月付 $20 给 ChatGPT Plus,但 ChatGPT 网页/App 只能做对话式问答,干不了"读你的代码库、改文件、跑测试、提 PR"这种活。Claude Code 要单花 $20 订阅,而且国内三关(账号、支付、网络)更难。Codex CLI 把 Agent 能力直接打包进 ChatGPT 订阅——对已订阅用户来说,这是边际成本为零的增量。

第二个空白:Windows 原生 Agent。 Claude Code 在 Windows 上官方推荐走 WSL,PowerShell 原生路径经常跑不通。Codex CLI 用 Rust 写、原生支持 Windows AppContainer 沙箱,PowerShell 直接跑,不必套一层 Linux 子系统。这对 Windows 主力开发者是实质提升——而 gpt-5.1-codex-max 更是首个原生训练支持 Windows 环境的模型

第三个空白:开源 + 可审计。 Claude Code 是闭源二进制,企业要审计它做了什么只能看日志。Codex CLI 是 Apache-2.0 开源GitHub: openai/codex,428+ 贡献者),沙箱策略、Hook 行为、工具调用链路都在源码里可查。对有合规要求的企业,这是 Claude Code 给不了的透明度。

终端 Agent 能力:沙箱、Subagents、Hooks

Codex CLI 官方 features 文档,2026 的三个主线是速度与实时、Agent 自主性、企业就绪。展开讲最有用的几块:

沙箱执行是底线安全。 默认在受限沙箱里跑命令——macOS 用 Sandbox、Linux 用 Landlock、Windows 用 AppContainer——不会污染主机。沙箱默认还会限制网络,跑 npm install 这类联网命令前会弹 approval 让你确认。这套机制和 Claude Code 的权限模型思路一致,但 Codex CLI 的 Windows 原生沙箱是 Claude Code 没有的。

Subagents 让大任务并行。 把一个大任务拆给多个并行子代理,比如起任务时让一个子代理跑 lint、另一个跑 test,token 用得多但效率高。这是 Codex 2026 把 Subagents 做到 GA 的核心收益。预算敏感时可以关掉 [agents] 配置或换 mini 模型省钱。

Hooks 是企业策略的插入口。 PostToolUse Hook 能在工具调用后插入企业策略(比如改完代码自动跑安全扫描),userpromptsubmit Hook 能在用户提交 prompt 前做合规过滤。这套机制让 Codex CLI 能塞进企业 CI/CD 流水线,而不是只能给个人用。

Image inputs 是被低估的能力。 终端里 codex -i screenshot.png "解释这个错误" 直接读图——把报错截图丢给它,让它定位问题,比手动抄错误信息快。

Smart Approvals 降低打断频率。 只读 / 幂等命令自动放行,写操作和危险命令才弹确认。这比"每个命令都问"省心,又比"全自动放手"安全,是日常重型任务的平衡点。

多模型支持:codex 系列的分层

Codex CLI 不只有一个模型,2026 年是一整套 codex 系列分层:

模型定位适用场景
gpt-5-codex主力编码模型日常 Agent 任务、重构、跨文件改写
gpt-5-codex-mini轻量快速档简单任务、省钱跑量(Plus 额度主力)
gpt-5.3-codex-spark推理速度档1000+ token/s,低延迟交互
gpt-5.1-codex-max重型长程档24h+ 项目级重构,xhigh reasoning
gpt-5.5通用旗舰架构决策、跨语言、通用对话

关键认知:codex 系列是编码专用模型,官方明确建议"仅用于 Codex 或类 Codex 环境中的 agentic 编码任务"。通用对话、写文档这类活用 gpt-5.5 更合适。这也是为什么 Codex CLI 默认推荐 codex 系列而非 5.5——便宜且对齐编码场景。

模型切换很简单codex -m gpt-5-codex 一行命令换模型。日常用 mini 省钱、重型任务切 max、要通用能力切 5.5。这种分层让 Codex CLI 的 token 经济学比"一个模型打天下"的工具更可控。

注意:Codex CLI 原生只走 OpenAI API。想用本地模型(Ollama / vLLM)或国产模型,得换 Aider——它支持任意 OpenAI 兼容 endpoint,能指向 DeepSeek / Qwen / GLM。这是 Aider 在国内场景的核心优势,Codex CLI 给不了。

代码生成质量:gpt-5-codex 能打几分

gpt-5.1-codex-max 模型卡 引用的官方基准:

基准gpt-5.1-codex (high)gpt-5.1-codex-max (xhigh)
SWE-bench Verified (n=500)73.7%77.9%
SWE-Lancer IC SWE66.3%79.9%
Terminal-Bench 2.052.8%58.1%

77.9% 的 SWE-bench Verified 是当前编码模型第一梯队。但基准分只是参考,真实体感看几个维度:

强项:结构化输出和 API 理解。 用 OpenAPI spec 生成 TypeScript client、把 Python 模块翻译成 Go 并保持 API 兼容、生成 JSDoc 注释和 README——这类"规范度高、格式要求严"的任务,GPT-5 系的指令遵循能力确实稳,输出比 Claude Code 更工整。

强项:长程 compaction。 gpt-5.1-codex-max 的 compaction 机制能在接近上下文上限时自动修剪历史、保留关键上下文,支持"多小时 agent 循环"。内部评测显示能独立工作 24 小时以上反复迭代修测试。这是项目级大型重构的硬需求。

弱项:中文理解。 中文注释和需求的理解有时不如 Claude,复杂中文语境下建议用英文 prompt 更稳。这点在 Codex CLI GA 新闻 里也明确提到——"中文项目为主"是推荐选 Claude Code 的场景之一。

弱项:超长任务稳定性。 5 小时以上的长任务偶尔会"失联",整体不如 Claude Sonnet 4.5 稳。compaction 缓解了上下文爆炸,但没完全抹平稳定性差距。

安全提醒: 开启联网 / web search 会引入提示注入风险。官方建议把模型当作"额外的审查者"而非人类代码审查的替代,保留 human-in-the-loop。敏感仓库慎开联网。

与 Claude Code 对比

这两个是终端 Agent 赛道的直接竞品,形态几乎镜像。差异主要在三处:

模型偏好是根本分水岭。 Codex CLI 走 OpenAI 的 gpt-5-codex 系列,Claude Code 走 Anthropic 的 Sonnet/Opus。喜欢 GPT 的输出风格(结构化、规范度高、API 理解强)选 Codex;喜欢 Claude 的风格(长上下文连贯、中文更懂、长任务更稳)选 Claude Code。这不是"谁更强",是"哪套模型更对你的胃口"。

Windows 原生是 Codex 的独占优势。 Claude Code 在 Windows 官方推荐 WSL,原生 PowerShell 路径经常踩坑。Codex CLI 的 Rust 二进制 + AppContainer 沙箱在 Windows 上原生跑,gpt-5.1-codex-max 更是首个原生训练支持 Windows 的模型。Windows 主力开发者,Codex CLI 体验明显更顺。

生态与社区是 Claude Code 的优势。 Claude Code 的 MCP 是"一等公民"——Anthropic 自家协议、支持最完整、社区 Server 最多。Codex CLI 也支持 MCP,但生态厚度薄一档。另外 Claude Code 的 slash 命令体系(/compact /clear /agents /batch)更成熟,长会话上下文管理更顺手。

详细的 1v1 对比见 Claude Code vs Codex CLI 双雄对比

价格与运行成本

Codex CLI 的价格策略是它对个人用户杀伤力最大的一招——和 ChatGPT 订阅打包

档位价格关键点
ChatGPT Plus$20/月含 Codex CLI 用量,mini 模型额度(2026-03 起 +4×)
ChatGPT Pro$200/月更高额度 + 优先处理 + Spark 研究预览
Business / Edu / Team$25-30/用户/月起团队管理 + SSO + Codex 含在内
纯 API按 tokengpt-5.5 ≈ $1.25/$10 per 1M token(input/output)

对比 Claude Code:Claude Code 的 Pro $20 / Max $100-$200 是单独买,已付 ChatGPT Plus 的人想用 Claude Code 得再开一份订阅。而 Codex CLI 对已订阅 ChatGPT 的人近乎免费——这一招对个人用户杀伤力巨大。

国内付款:ChatGPT Plus / Pro 支持支付宝,比 Claude Code 的"海外卡"门槛低。但网络这关两个都绕不开——OpenAI 风控严,别频繁切 IP,账号被封基本无法找回。

API 模式(BYOK):重度用户可以直接走 OpenAI API 按 token 计费,gpt-5.5 约 $1.25/$10 per 1M token。但 codex 系列的 API 访问发布初期需等待,先开放 ChatGPT 订阅。预算敏感时用 mini 模型跑日常、重型任务才切 max,是控制成本的关键。

适用场景

  • 已经订阅 ChatGPT Plus / Pro 的人——边际成本几乎为零,最划算的入口
  • Windows 原生开发者——AppContainer 沙箱 + 原生 PowerShell,不必套 WSL
  • 终端 / TMUX / Vim 重度用户——和 Claude Code 一样的 CLI 心智
  • 需要远程 SSH / 容器中跑 Agent——headless 友好,WebSocket 远程模式
  • 偏好 GPT 系输出风格——结构化、API 理解强、规范度高
  • 有合规审计需求的企业——Apache-2.0 开源、Hook 可插策略

不推荐场景

国内纯内网:OpenAI API 需要稳定代理,账号被封难找回。国内裸跑、预算敏感、想用国产模型的,去 Aider + DeepSeek / GLM 更经济——Aider 支持任意 OpenAI 兼容 endpoint,付款走支付宝零摩擦。

重度 GUI 党:Codex CLI 是终端工具,没有图形化 diff 预览、没有 Tab 补全。想要"所见即所得"的图形界面去 Cursor / Trae

要 Claude 长上下文风格的人:Claude Sonnet 4.5 的上下文连贯性和长任务稳定性仍是第一梯队,复杂中文项目、超大 monorepo 长任务,Claude Code 更稳。Codex CLI 的 compaction 缓解了上下文爆炸但没抹平稳定性差距。

只做基础代码补全:杀鸡用牛刀。单文件编辑、Tab 补全这类日常活,GitHub Copilot 更经济,不必上 Agent。

预算极敏感且没订阅 ChatGPT:Codex CLI 的性价比前提是"已经付 ChatGPT Plus"。如果你没订阅、纯按 API 跑,重度使用月账单可能比 Aider + DeepSeek 贵一个数量级。

FAQ

Q:Codex CLI 和 Claude Code 到底选哪个? A:看模型偏好和订阅状态。已经付 ChatGPT Plus 选 Codex CLI(近乎免费);已经付 Claude Pro/Max 选 Claude Code。Windows 原生开发者偏 Codex CLI;长任务稳定性、中文项目偏 Claude Code。两者都是 CLI Agent,形态镜像,差异主要在模型和生态。

Q:国内能用 Codex CLI 吗? A:能用但有门槛。需要 OpenAI 账号 + 稳定代理,Plus / Pro 订阅可走支付宝。OpenAI 风控严,别频繁切 IP。国内裸跑、想用国产模型的建议用 Aider 接 DeepSeek / GLM。

Q:Codex CLI 支持本地模型吗? A:原生只走 OpenAI API。要用本地模型(Ollama / vLLM)或国产模型,换 Aider——它支持任意 OpenAI 兼容 endpoint。

Q:Subagents / Hooks / MCP 是什么? A:Subagents 把大任务拆给多个并行子代理;Hooks(PostToolUse / userpromptsubmit)在工具调用前后插入企业策略;MCP 连外部工具(GitHub / 数据库 / Slack)。Codex 2026 把这三块都做到了 GA。

Q:gpt-5-codex 和 gpt-5.5 有什么区别? A:codex 系列是编码专用模型,专为 agentic 编码训练,便宜且对齐编码场景;gpt-5.5 是通用旗舰,适合架构决策和通用对话。日常 Agent 任务用 codex 系列,要通用能力才切 5.5。

相关阅读