性能碾压前代!Claude Opus 4.5重磅发布,2小时工程测试超越人类工程师

2025 年 11 月 25 日,AI 公司 Anthropic 正式推出旗舰模型 Claude Opus 4.5,聚焦编码、智能体协作与电脑使用三大核心场景,在多项权威基准测试中刷新纪录,不仅轻松攻克前代 Sonnet 4.5 难以完成的复杂任务,更在 2 小时高强度工程测试中得分超越所有人类候选人,展现出顶尖 AI 的实用价值。

Opus 4.5 的性能跃升体现在全维度测试中。编码领域,其在 SWE-bench Verified 基准测试中斩获 80.9% 的高分,超越 GPT-5.1 的 76.3% 和 Gemini 3 Pro 的 77.9%,在 8 种编程语言的多语言测试中 7 种位列榜首;Terminal-bench 2.0 终端编码测试得分 59.3%,较 Sonnet 4.5 提升 9.3 个百分点。智能体工具使用与电脑操作能力同样突出,τ2-bench 电信领域测试得分 98.2%,MCP Atlas 规模化工具使用测试达 62.3%(较前代提升 18.5 个百分点),OSWorld 电脑使用测试以 66.3% 的成绩领先行业,能熟练完成 Excel 财务分析、Word 法律文档修改、PPT 制作等日常办公任务。

在复杂问题解决与推理层面,Opus 4.5 展现出 “超越预期” 的能力。ARC-AGI-2 验证集测试中,其得分 37.6%,远超 Sonnet 4.5 的 13.6% 和 GPT-5.1 的 17.6%;面对跨系统复杂漏洞,无需人工引导即可自主定位修复方案。更令人惊艳的是,在业界公认难度极高的性能工程师居家测试中,该模型 2 小时内完成的答卷得分超过所有人类候选人,凸显其在技术能力与时间压力下的判断力。此外,它还能突破基准测试的预期框架,例如在航空服务场景中,创造性地通过 “升级舱位再改航班” 的合规方案,解决基础经济舱不可改期的难题。

此次升级同步优化了效率与安全性。开发者可通过新增的 “努力度参数”,在最小化成本与最大化性能间灵活切换,中等努力度下即可达到 Sonnet 4.5 的最佳性能,且输出 tokens 用量减少 76%。安全防护方面,模型抵御提示词注入攻击的能力显著提升,在多轮查询测试中表现优于 GPT-5.1 与 Gemini 3 Pro。配套产品也同步升级:Claude Code 新增计划模式与桌面端多会话并行功能,Claude App 支持长对话自动总结实现 “无限续航”,Chrome 扩展程序向所有 Max 订阅用户开放,Excel 插件则扩展至 Max、Team 及 Enterprise 用户。

定价与使用方面,Opus 4.5 已通过 App、API 及三大主流云平台开放,API 调用定价为每百万 tokens 输入 5 美元、输出 25 美元,Max 与 Team Premium 用户的整体使用额度上调,Opus tokens 用量与前代 Sonnet 大致持平。Anthropic 表示,该模型的推出不仅是技术迭代,更预示着工作模式的变革,其在深度调研、多智能体协作等场景的能力提升,将为开发者与企业用户带来更高效的 AI 协作体验。在 GPT-5.1、Gemini 3 等旗舰模型的激烈竞争中,Opus 4.5 凭借全场景性能优势与实用化升级,进一步巩固了 Anthropic 在 AI 领域的核心地位。

© 版权声明

相关文章