Anthropic 发布 Claude Sonnet 4.5：编程基准刷新业界纪录

2026-05-22 · Anthropic

要点

SWE-Bench 是评估 AI 编程能力的权威基准，要求模型根据 GitHub Issue 修复真实代码库。77.2% 意味着：

这个提升幅度在 AI 领域算「质变」——之前 65% 卡了行业大半年，4.5 直接破了天花板。

1M token ≈ 75 万汉字 ≈ 7-8 万行代码。这个量级意味着：

# 之前：上下文窗口限制
Sonnet 4: 200K tokens → 只能分析 ~15K 行代码
# 痛点：大型重构必须拆分成多个步骤

# 现在：全量分析
Sonnet 4.5: 1M tokens → 轻松分析 ~70K 行代码
# 体验：一个命令分析整个 monorepo

适用场景：

官方测试数据：

这直接影响 Claude Code 的「放手让它跑」体验——之前跑 30 分钟以上的任务容易开始「失忆」，现在可以稳定跑半天。

指标	Sonnet 4	Sonnet 4.5	提升
完成时间	47 分钟	31 分钟	+34%
上下文溢出次数	3 次	0 次	完美
代码正确率	78%	91%	+13%
测试覆盖率	62%	84%	+22%

关键差异在于 1M context——之前需要手动切分任务、多次「复制粘贴前文」来维持上下文，现在一次分析整个代码库，逻辑连贯性大幅提升。

Sonnet 4.5 保持原价：

套餐	Input	Output	说明
Standard	$3/M	$15/M	Claude.ai / API
Max	$75/15M	$75/15M	无限高速

对比竞品：

性价比角度：Sonnet 4.5 定价中等，但编程能力最强。

Claude Code 已自动升级到 4.5，无需任何操作。如果你在：

Sonnet 4.5 对长任务工作流是质的提升——之前 5 步就开始飘的复杂重构，现在能跑 30+ 步而不偏。Cursor / Windsurf / Trae 都已切默认。

如果你重度依赖 Claude Code，本次升级几乎免费的能力提升，建议立即更新。