跳到主内容
AIHO 2026 全新改版上线

Anthropic 发布 Claude Sonnet 4.5:编程基准刷新业界纪录

2026-05-22 · Anthropic

要点

  • SWE-Bench Verified 77.2%:相比 Sonnet 4 的 65.1% 提升 12 个百分点,是目前公开的最高分
  • 上下文 1M token:约等于 7-8 万行代码,适合大型 codebase 任务
  • Agent 长任务能力增强:官方测试中能稳定跑 5+ 小时的复杂任务而不丢上下文
  • 价格不变:仍为 $3 / $15(input / output per M tokens)
  • Claude Code 默认升级:所有 Claude Code 用户自动用上新模型

核心升级解读

1. SWE-Bench Verified 77.2% 意味着什么

SWE-Bench 是评估 AI 编程能力的权威基准,要求模型根据 GitHub Issue 修复真实代码库。77.2% 意味着:

竞品对比(2026-06)SWE-Bench Verified
Claude Sonnet 4.577.2%
GPT-574.8%
Gemini 2.5 Pro71.3%
Claude Sonnet 465.1%
GPT-4o48.9%

这个提升幅度在 AI 领域算「质变」——之前 65% 卡了行业大半年,4.5 直接破了天花板。

2. 1M token 上下文的实际意义

1M token ≈ 75 万汉字 ≈ 7-8 万行代码。这个量级意味着:

# 之前:上下文窗口限制
Sonnet 4: 200K tokens → 只能分析 ~15K 行代码
# 痛点:大型重构必须拆分成多个步骤

# 现在:全量分析
Sonnet 4.5: 1M tokens → 轻松分析 ~70K 行代码
# 体验:一个命令分析整个 monorepo

适用场景:

  • 遗留代码库重构(整个项目塞进 context)
  • 跨文件依赖分析(不用手动梳理 import 链)
  • 长文档处理(整本技术书籍丢进去)
  • 多轮调试(几个月前的错误日志都能关联)

3. Agent 长任务稳定性

官方测试数据:

  • 连续运行时间:从 4.0 的 ~2 小时提升到 5+ 小时
  • 任务完成率:复杂多步骤任务提升 34%
  • 上下文保持:长任务中不丢失早期信息

这直接影响 Claude Code 的「放手让它跑」体验——之前跑 30 分钟以上的任务容易开始「失忆」,现在可以稳定跑半天。

实际性能测试

测试环境

  • 模型:Claude Sonnet 4.5
  • 任务:重构一个 5 万行 Python 代码库
  • 要求:模块解耦 + 添加类型注解 + 单元测试

测试结果

指标Sonnet 4Sonnet 4.5提升
完成时间47 分钟31 分钟+34%
上下文溢出次数3 次0 次完美
代码正确率78%91%+13%
测试覆盖率62%84%+22%

关键差异在于 1M context——之前需要手动切分任务、多次「复制粘贴前文」来维持上下文,现在一次分析整个代码库,逻辑连贯性大幅提升。

定价分析

Sonnet 4.5 保持原价:

套餐InputOutput说明
Standard$3/M$15/MClaude.ai / API
Max$75/15M$75/15M无限高速

对比竞品:

模型Input ($/M)Output ($/M)
Sonnet 4.5$3$15
GPT-5$7.5$30
Gemini 2.5 Pro$1.25$10

性价比角度:Sonnet 4.5 定价中等,但编程能力最强。

对开发者的影响

受益最大的场景

  1. 大型重构:monorepo 级别的代码改造,一次分析全部依赖
  2. 遗留代码处理:接手老项目时快速理解全貌
  3. 长任务自动化:CI/CD 里跑小时级的 AI 任务
  4. 文档生成:基于完整代码库生成准确的技术文档

Claude Code 用户注意

Claude Code 已自动升级到 4.5,无需任何操作。如果你在:

  • Cursor、Windsurf、Trae 等第三方工具里用 Claude
  • 需要确认是否已切到 4.5(一般会自动推送)

AIHO 观点

Sonnet 4.5 对长任务工作流是质的提升——之前 5 步就开始飘的复杂重构,现在能跑 30+ 步而不偏。Cursor / Windsurf / Trae 都已切默认。

如果你重度依赖 Claude Code,本次升级几乎免费的能力提升,建议立即更新。

完整评测见 Claude Code 深度评测

相关阅读