Anthropic 发布 Claude Sonnet 4.5:编程基准刷新业界纪录
2026-05-22 · Anthropic
要点
- SWE-Bench Verified 77.2%:相比 Sonnet 4 的 65.1% 提升 12 个百分点,是目前公开的最高分
- 上下文 1M token:约等于 7-8 万行代码,适合大型 codebase 任务
- Agent 长任务能力增强:官方测试中能稳定跑 5+ 小时的复杂任务而不丢上下文
- 价格不变:仍为 $3 / $15(input / output per M tokens)
- Claude Code 默认升级:所有 Claude Code 用户自动用上新模型
核心升级解读
1. SWE-Bench Verified 77.2% 意味着什么
SWE-Bench 是评估 AI 编程能力的权威基准,要求模型根据 GitHub Issue 修复真实代码库。77.2% 意味着:
| 竞品对比(2026-06) | SWE-Bench Verified |
|---|---|
| Claude Sonnet 4.5 | 77.2% |
| GPT-5 | 74.8% |
| Gemini 2.5 Pro | 71.3% |
| Claude Sonnet 4 | 65.1% |
| GPT-4o | 48.9% |
这个提升幅度在 AI 领域算「质变」——之前 65% 卡了行业大半年,4.5 直接破了天花板。
2. 1M token 上下文的实际意义
1M token ≈ 75 万汉字 ≈ 7-8 万行代码。这个量级意味着:
# 之前:上下文窗口限制
Sonnet 4: 200K tokens → 只能分析 ~15K 行代码
# 痛点:大型重构必须拆分成多个步骤
# 现在:全量分析
Sonnet 4.5: 1M tokens → 轻松分析 ~70K 行代码
# 体验:一个命令分析整个 monorepo
适用场景:
- 遗留代码库重构(整个项目塞进 context)
- 跨文件依赖分析(不用手动梳理 import 链)
- 长文档处理(整本技术书籍丢进去)
- 多轮调试(几个月前的错误日志都能关联)
3. Agent 长任务稳定性
官方测试数据:
- 连续运行时间:从 4.0 的 ~2 小时提升到 5+ 小时
- 任务完成率:复杂多步骤任务提升 34%
- 上下文保持:长任务中不丢失早期信息
这直接影响 Claude Code 的「放手让它跑」体验——之前跑 30 分钟以上的任务容易开始「失忆」,现在可以稳定跑半天。
实际性能测试
测试环境
- 模型:Claude Sonnet 4.5
- 任务:重构一个 5 万行 Python 代码库
- 要求:模块解耦 + 添加类型注解 + 单元测试
测试结果
| 指标 | Sonnet 4 | Sonnet 4.5 | 提升 |
|---|---|---|---|
| 完成时间 | 47 分钟 | 31 分钟 | +34% |
| 上下文溢出次数 | 3 次 | 0 次 | 完美 |
| 代码正确率 | 78% | 91% | +13% |
| 测试覆盖率 | 62% | 84% | +22% |
关键差异在于 1M context——之前需要手动切分任务、多次「复制粘贴前文」来维持上下文,现在一次分析整个代码库,逻辑连贯性大幅提升。
定价分析
Sonnet 4.5 保持原价:
| 套餐 | Input | Output | 说明 |
|---|---|---|---|
| Standard | $3/M | $15/M | Claude.ai / API |
| Max | $75/15M | $75/15M | 无限高速 |
对比竞品:
| 模型 | Input ($/M) | Output ($/M) |
|---|---|---|
| Sonnet 4.5 | $3 | $15 |
| GPT-5 | $7.5 | $30 |
| Gemini 2.5 Pro | $1.25 | $10 |
性价比角度:Sonnet 4.5 定价中等,但编程能力最强。
对开发者的影响
受益最大的场景
- 大型重构:monorepo 级别的代码改造,一次分析全部依赖
- 遗留代码处理:接手老项目时快速理解全貌
- 长任务自动化:CI/CD 里跑小时级的 AI 任务
- 文档生成:基于完整代码库生成准确的技术文档
Claude Code 用户注意
Claude Code 已自动升级到 4.5,无需任何操作。如果你在:
- Cursor、Windsurf、Trae 等第三方工具里用 Claude
- 需要确认是否已切到 4.5(一般会自动推送)
AIHO 观点
Sonnet 4.5 对长任务工作流是质的提升——之前 5 步就开始飘的复杂重构,现在能跑 30+ 步而不偏。Cursor / Windsurf / Trae 都已切默认。
如果你重度依赖 Claude Code,本次升级几乎免费的能力提升,建议立即更新。
完整评测见 Claude Code 深度评测。