性能碾压前代！Claude Opus 4.5重磅发布，2小时工程测试超越人类工程师

0 0

2025 年 11 月 25 日，AI 公司 Anthropic 正式推出旗舰模型 Claude Opus 4.5，聚焦编码、智能体协作与电脑使用三大核心场景，在多项权威基准测试中刷新纪录，不仅轻松攻克前代 Sonnet 4.5 难以完成的复杂任务，更在 2 小时高强度工程测试中得分超越所有人类候选人，展现出顶尖 AI 的实用价值。

Opus 4.5 的性能跃升体现在全维度测试中。编码领域，其在 SWE-bench Verified 基准测试中斩获 80.9% 的高分，超越 GPT-5.1 的 76.3% 和 Gemini 3 Pro 的 77.9%，在 8 种编程语言的多语言测试中 7 种位列榜首；Terminal-bench 2.0 终端编码测试得分 59.3%，较 Sonnet 4.5 提升 9.3 个百分点。智能体工具使用与电脑操作能力同样突出，τ2-bench 电信领域测试得分 98.2%，MCP Atlas 规模化工具使用测试达 62.3%（较前代提升 18.5 个百分点），OSWorld 电脑使用测试以 66.3% 的成绩领先行业，能熟练完成 Excel 财务分析、Word 法律文档修改、PPT 制作等日常办公任务。

在复杂问题解决与推理层面，Opus 4.5 展现出 “超越预期” 的能力。ARC-AGI-2 验证集测试中，其得分 37.6%，远超 Sonnet 4.5 的 13.6% 和 GPT-5.1 的 17.6%；面对跨系统复杂漏洞，无需人工引导即可自主定位修复方案。更令人惊艳的是，在业界公认难度极高的性能工程师居家测试中，该模型 2 小时内完成的答卷得分超过所有人类候选人，凸显其在技术能力与时间压力下的判断力。此外，它还能突破基准测试的预期框架，例如在航空服务场景中，创造性地通过 “升级舱位再改航班” 的合规方案，解决基础经济舱不可改期的难题。

此次升级同步优化了效率与安全性。开发者可通过新增的 “努力度参数”，在最小化成本与最大化性能间灵活切换，中等努力度下即可达到 Sonnet 4.5 的最佳性能，且输出 tokens 用量减少 76%。安全防护方面，模型抵御提示词注入攻击的能力显著提升，在多轮查询测试中表现优于 GPT-5.1 与 Gemini 3 Pro。配套产品也同步升级：Claude Code 新增计划模式与桌面端多会话并行功能，Claude App 支持长对话自动总结实现 “无限续航”，Chrome 扩展程序向所有 Max 订阅用户开放，Excel 插件则扩展至 Max、Team 及 Enterprise 用户。

定价与使用方面，Opus 4.5 已通过 App、API 及三大主流云平台开放，API 调用定价为每百万 tokens 输入 5 美元、输出 25 美元，Max 与 Team Premium 用户的整体使用额度上调，Opus tokens 用量与前代 Sonnet 大致持平。Anthropic 表示，该模型的推出不仅是技术迭代，更预示着工作模式的变革，其在深度调研、多智能体协作等场景的能力提升，将为开发者与企业用户带来更高效的 AI 协作体验。在 GPT-5.1、Gemini 3 等旗舰模型的激烈竞争中，Opus 4.5 凭借全场景性能优势与实用化升级，进一步巩固了 Anthropic 在 AI 领域的核心地位。

# AI 资讯