跳到主内容
AIHO 2026 全新改版上线
codingAnthropic

Claude Opus 4.5

Anthropic 2025 年 11 月发布的旗舰模型,专为编程/agent/computer use 优化,SWE-bench Verified 发布即 SOTA,新增 effort 参数大幅降本。

规格

厂商
Anthropic
发布日期
2025/11/24
类型
coding
上下文窗口
200K tokens
最大输出
64K tokens
定价
Input $5/M · Output $25/M
API 兼容
anthropic, bedrock, vertex-ai

基准测试

SOTA(发布时)
SWE-bench Verified
较 Sonnet 4.5 +10.6%
Aider Polyglot
8 种语言中领先 7 种
SWE-bench Multilingual
较 Sonnet 4.5 +29%
Vending-Bench

✓ 优势

  • SWE-bench Verified 当时 SOTA,编程能力业界第一梯队
  • 新增 effort 参数:medium 档省 76% token 仍持平 Sonnet 4.5
  • 长程 agent 能力强,擅长多 subagent 编排
  • 号称最稳健对齐的前沿模型,抗提示注入强(Gray Swan 验证)
  • 上下文 compaction + 记忆能力,长任务不丢上下文

⚠ 不足

  • 价格偏高($5/$25),高吞吐场景成本压力大
  • 国内无官方 API,需走中转
  • 上下文 200K,低于 Gemini 3 Pro 的 1M
  • 纯多模态弱于 Gemini,仅支持图片

适用场景

软件工程 / 大型重构 agent深度研究与多步推理金融建模(Excel)多 subagent 编排任务

概述

Claude Opus 4.5 是 Anthropic 于 2025 年 11 月 24 日发布的旗舰模型(模型 ID claude-opus-4-5-20251101),专为编程、agentic 工作流和复杂 computer use 优化。发布时在 SWE-bench Verified 上达到 SOTA,是评测站高频对标的「编程能力天花板」。相比 Claude Sonnet 4.5,它在保持更强能力的同时通过 effort 参数大幅降低 token 消耗。

核心能力

编程 SOTA

  • SWE-bench Verified:发布时业界最高分
  • Aider Polyglot:较 Sonnet 4.5 提升 10.6%
  • SWE-bench Multilingual:8 种编程语言里领先 7 种

官方一个内部性能工程师 take-home 考试中,Opus 4.5 在 2 小时限时内的得分超过所有人类候选人。

effort 参数(降本关键)

Opus 4.5 新增 API effort 参数,在速度/成本和能力之间权衡:

effort 档位表现token 消耗
medium持平 Sonnet 4.5 的 SWE-bench比 Sonnet 4.5 少 76%
high超 Sonnet 4.5 4.3 个百分点少 48%

这意味着即便单价 $5/$25 偏高,实际账单因 token 消耗大幅下降而更可控。

长程 Agent 与编排

新增上下文 compaction 和记忆能力,长任务不丢上下文。擅长管理 subagent 团队——结合这些技术,官方深度研究评测提升近 15 个百分点。关于多 agent 编排的概念见 AI Agent

对齐与安全

Anthropic 称其为当前最稳健对齐的前沿模型。抗提示注入能力显著强于同业(Gray Swan 第三方验证),在人类误用和自主不当行为上的「问题行为」分数更低。

API 调用示例

import anthropic
client = anthropic.Anthropic(api_key="sk-ant-...")

msg = client.messages.create(
    model="claude-opus-4-5",
    max_tokens=8000,
    extra_body={"effort": "medium"},  # medium 省 76% token
    messages=[{"role": "user", "content": "重构这个模块并加类型注解"}],
)
print(msg.content[0].text)

定价

项目价格
Input$5 / 百万 token
Output$25 / 百万 token

比 Sonnet 4.5($3/$15)贵,但配合 effort=medium 的 token 节省,复杂任务实际成本常更低。Claude Code 用户已可直接用上。

与同档模型怎么选

维度Claude Opus 4.5Gemini 3 ProGPT-5.1-Codex-Max
纯编程(SWE-bench)SOTA76.2%77.9%
多模态仅图片原生全模态
上下文200K1M多窗口 compaction
agent 编排★★★★★★★★★☆★★★★★(专用)
国内可用

建议:综合编程 + agent 编排选 Opus 4.5;纯长程自动化编码任务可看专用的 GPT-5.1-Codex-Max;要多模态选 Gemini 3 Pro

避坑清单

  • 善用 effort 参数:默认别拉 high,medium 已能持平 Sonnet 4.5 且省 76% token。
  • 200K 上下文不是无限:超长 codebase 仍需配合 RAG 或检索压缩。
  • 国内无直连:需 Bedrock / Vertex AI 或中转。
  • 价格敏感场景算总账:单价高但 token 省,按实际任务估算而非只看单价。

延伸阅读