Name: Claude Opus 4
Brand: Anthropic

概述

Claude Opus 4 是 Anthropic 于 2025 年 5 月与 Sonnet 4 同步发布的旗舰推理模型。推理能力和写作质量在所有大模型中名列前茅，但价格是 Sonnet 4 的 5 倍，定位为高价值场景专用。

核心能力

深度推理

GPQA Diamond 61.2%，在科学推理、逻辑分析、数学证明等复杂推理任务上优于 Sonnet 4。适合需要深度思考的场景：

法律条文分析与跨条文关联
金融模型推导与场景压力测试
科学论文审阅与方法论评估
复杂决策树推理与边界条件枚举

Thinking 模式

Opus 4 支持 extended thinking 模式，模型在回答前会先做内部推理（类似思维链），思考过程对开发者可见。开启方式：

resp = client.messages.create(
    model="claude-opus-4-20250522",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Solve this complex problem..."}],
)
# resp.content 里会包含 thinking block + text block
for block in resp.content:
    if block.type == "thinking":
        print("[think]", block.thinking)
    elif block.type == "text":
        print("[answer]", block.text)

Thinking budget 越大、推理越深、用 token 越多。复杂数学/法律问题给 5000-10000 通常足够。

长文写作

Claude Opus 4 的写作质量是大模型中最高的——长文结构清晰、逻辑连贯、用词精准。适合：

学术论文润色
长篇小说创作
深度行业报告
高质量技术文档

安全性

遵循 Constitutional AI 原则，处理敏感内容时比其他模型更谨慎。适合对安全性要求高的场景（医疗、法律、金融）。

API 调用示例

from anthropic import Anthropic

client = Anthropic()

# 基础调用
resp = client.messages.create(
    model="claude-opus-4-20250522",
    max_tokens=8000,
    temperature=1.0,         # 推理模型保持默认 1.0
    messages=[
        {"role": "user", "content": "分析这份合同的法律风险点：\n..."}
    ],
)
print(resp.content[0].text)

注意：thinking 模式开启时，temperature 必须保持默认值，不能改。Anthropic 强制约束——和 OpenAI o-series 一样的设计哲学，详见 Temperature 与 Top-P。

定价

项目	价格	对比 Sonnet 4
Input	$15 / 百万 token	5×
Output	$75 / 百万 token	5×
Cache Write	$18.75 / 百万 token	5×
Cache Read	$1.50 / 百万 token	5×

启用 thinking 模式时，thinking token 也计入 Output 计费。一次 10 万字的深度文档分析约花费 $3-5；启用 thinking 后可能翻倍。

成本控制实操

Opus 4 价格高，三招控开支：

路由策略：用 Sonnet 4 / Haiku 4 处理简单任务，只把复杂推理路由到 Opus 4。可以用一个小模型做 "task classifier" 决定 routing。
Thinking budget 控制：不要默认拉满。简单题 1000 token 够、复杂题 5000、极复杂 10000+。
Prompt Cache 必开：长 system prompt（法律 / 合规规则、金融模型上下文）放 cache，Read 价格 -90%（详见 Token）。

Opus 4 vs Sonnet 4

维度	Opus 4	Sonnet 4
推理	★★★★★	★★★★☆
编程	★★★★☆	★★★★★
写作	★★★★★	★★★★☆
价格	$15/$75	$3/$15
输出窗口	32K	64K
速度	较慢	快
Thinking 模式	✅	❌（标准模式即可）

关键认知：Opus 4 不是 "Sonnet 4 加强版" 而是不同任务的专用工具。日常编程 Sonnet 4 更快更好；只有遇到 Sonnet 4 推理崩盘的硬骨头，才切到 Opus 4。

适用场景判断流程

任务来了
  │
  ├─ 主要是写代码？      → Sonnet 4
  ├─ 主要是高吞吐对话？   → Haiku 4
  ├─ 需要深度推理 / 跨条文关联 / 严谨写作？
  │   └─ 是 → Opus 4（配 thinking）
  └─ 都不是 → Sonnet 4 兜底

与 GPT-5 / Gemini 2.5 Pro 推理能力对比

维度	Opus 4	GPT-5	Gemini 2.5 Pro
GPQA Diamond	61.2%	62.5%	56.4%
MATH-500	~96%	98.4%	~95%
写作质量	★★★★★	★★★★☆	★★★☆☆
价格	$15/$75	$1.25/$10	$1.25/$10
安全性	最严格	中等	中等

价格上 Opus 完全无优势——选它的理由是 写作质量 + 安全性 + Constitutional AI，纯推理 / 纯编程不一定值。

避坑清单

不要默认上 Opus 4：90% 任务 Sonnet 4 就够，Opus 浪费钱。
Thinking budget 不要拉满：从 2000 开始测，按需调高。
温度别动：thinking 模式下不允许，标准模式也建议保留默认 1.0。
输出窗口 32K 上限：长文写作切大块分次生成，不要试图一次 50K 输出。

Claude Opus 4

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述