Claude Opus 4.5
Anthropic 2025 年 11 月发布的旗舰模型,专为编程/agent/computer use 优化,SWE-bench Verified 发布即 SOTA,新增 effort 参数大幅降本。
规格
- 厂商
- Anthropic
- 发布日期
- 2025/11/24
- 类型
- coding
- 上下文窗口
- 200K tokens
- 最大输出
- 64K tokens
- 定价
- Input $5/M · Output $25/M
- API 兼容
- anthropic, bedrock, vertex-ai
基准测试
✓ 优势
- •SWE-bench Verified 当时 SOTA,编程能力业界第一梯队
- •新增 effort 参数:medium 档省 76% token 仍持平 Sonnet 4.5
- •长程 agent 能力强,擅长多 subagent 编排
- •号称最稳健对齐的前沿模型,抗提示注入强(Gray Swan 验证)
- •上下文 compaction + 记忆能力,长任务不丢上下文
⚠ 不足
- •价格偏高($5/$25),高吞吐场景成本压力大
- •国内无官方 API,需走中转
- •上下文 200K,低于 Gemini 3 Pro 的 1M
- •纯多模态弱于 Gemini,仅支持图片
适用场景
概述
Claude Opus 4.5 是 Anthropic 于 2025 年 11 月 24 日发布的旗舰模型(模型 ID claude-opus-4-5-20251101),专为编程、agentic 工作流和复杂 computer use 优化。发布时在 SWE-bench Verified 上达到 SOTA,是评测站高频对标的「编程能力天花板」。相比 Claude Sonnet 4.5,它在保持更强能力的同时通过 effort 参数大幅降低 token 消耗。
核心能力
编程 SOTA
- SWE-bench Verified:发布时业界最高分
- Aider Polyglot:较 Sonnet 4.5 提升 10.6%
- SWE-bench Multilingual:8 种编程语言里领先 7 种
官方一个内部性能工程师 take-home 考试中,Opus 4.5 在 2 小时限时内的得分超过所有人类候选人。
effort 参数(降本关键)
Opus 4.5 新增 API effort 参数,在速度/成本和能力之间权衡:
| effort 档位 | 表现 | token 消耗 |
|---|---|---|
| medium | 持平 Sonnet 4.5 的 SWE-bench | 比 Sonnet 4.5 少 76% |
| high | 超 Sonnet 4.5 4.3 个百分点 | 少 48% |
这意味着即便单价 $5/$25 偏高,实际账单因 token 消耗大幅下降而更可控。
长程 Agent 与编排
新增上下文 compaction 和记忆能力,长任务不丢上下文。擅长管理 subagent 团队——结合这些技术,官方深度研究评测提升近 15 个百分点。关于多 agent 编排的概念见 AI Agent。
对齐与安全
Anthropic 称其为当前最稳健对齐的前沿模型。抗提示注入能力显著强于同业(Gray Swan 第三方验证),在人类误用和自主不当行为上的「问题行为」分数更低。
API 调用示例
import anthropic
client = anthropic.Anthropic(api_key="sk-ant-...")
msg = client.messages.create(
model="claude-opus-4-5",
max_tokens=8000,
extra_body={"effort": "medium"}, # medium 省 76% token
messages=[{"role": "user", "content": "重构这个模块并加类型注解"}],
)
print(msg.content[0].text)
定价
| 项目 | 价格 |
|---|---|
| Input | $5 / 百万 token |
| Output | $25 / 百万 token |
比 Sonnet 4.5($3/$15)贵,但配合 effort=medium 的 token 节省,复杂任务实际成本常更低。Claude Code 用户已可直接用上。
与同档模型怎么选
| 维度 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.1-Codex-Max |
|---|---|---|---|
| 纯编程(SWE-bench) | SOTA | 76.2% | 77.9% |
| 多模态 | 仅图片 | 原生全模态 | 弱 |
| 上下文 | 200K | 1M | 多窗口 compaction |
| agent 编排 | ★★★★★ | ★★★★☆ | ★★★★★(专用) |
| 国内可用 | ❌ | ❌ | ❌ |
建议:综合编程 + agent 编排选 Opus 4.5;纯长程自动化编码任务可看专用的 GPT-5.1-Codex-Max;要多模态选 Gemini 3 Pro。
避坑清单
- 善用 effort 参数:默认别拉 high,medium 已能持平 Sonnet 4.5 且省 76% token。
- 200K 上下文不是无限:超长 codebase 仍需配合 RAG 或检索压缩。
- 国内无直连:需 Bedrock / Vertex AI 或中转。
- 价格敏感场景算总账:单价高但 token 省,按实际任务估算而非只看单价。
延伸阅读
- 对比同档:GPT-5.1-Codex-Max / Gemini 3 Pro / GPT-5
- 配套工具:Claude Code
- 深度评测:Claude Code 深度评测