2025 年 11 月 24 日,AI 公司 Anthropic 正式推出旗舰模型最新版本 Opus 4.5,作为其 4.5 系列的收官之作,该版本在编码、工具使用、通用问题解决等多项基准测试中表现亮眼,同时新增 Chrome 浏览器和 Excel 办公软件集成功能,进一步强化长文本处理与多场景实用性。
Opus 4.5 是 Anthropic 4.5 系列的最后一款产品,此前该公司已分别于 9 月和 10 月推出 Sonnet 4.5 与 Haiku 4.5。新版本在多项权威基准测试中达到行业顶尖水平,尤其在编码领域表现突出 —— 成为首个在 SWE-Bench verified 基准测试中得分超过 80% 的模型,该测试被业内视为衡量代码能力的重要标准。此外,在 Terminal-bench 编码测试、tau2-bench 和 MCP Atlas 工具使用测试,以及 ARC-AGI 2、GPQA Diamond 通用问题解决测试中,Opus 4.5 均展现出一流性能。
针对实际办公场景,Anthropic 同步扩大了两款配套产品的开放范围:此前处于测试阶段的 Claude for Chrome 浏览器扩展程序和 Claude for Excel 插件,现已面向更多用户开放。其中,Chrome 扩展程序可供所有 Max 套餐用户使用,Excel 专用模型则覆盖 Max、Team 及 Enterprise 套餐用户,助力用户在浏览网页和处理表格时快速调用 AI 能力,提升工作效率。
长文本处理能力的升级是 Opus 4.5 的另一大亮点。Anthropic 产品管理负责人 Dianne Na Penn 介绍,团队对模型的内存管理机制进行了重大优化,不仅提升了长上下文处理质量,还为付费用户推出了备受期待的 “无限聊天” 功能。当对话达到模型上下文窗口上限时,Opus 4.5 会自动压缩上下文记忆,无需用户干预即可持续对话,避免因内存限制导致的聊天中断。
这些升级尤其适配智能代理(agentic)场景,例如让 Opus 4.5 作为主代理,指挥由 Haiku 模型驱动的子代理协同完成任务。Penn 表示,内存管理的优化让模型能够高效探索代码库和大型文档,同时具备回溯核查的能力,为复杂任务协作提供了技术支撑。
当前 AI 前沿模型赛道竞争激烈,Opus 4.5 的推出正值 OpenAI 11 月 12 日发布 GPT 5.1、谷歌 11 月 18 日推出 Gemini 3 之后,三款旗舰模型形成直接竞争态势。Anthropic 通过持续迭代模型性能、拓展办公场景集成,进一步巩固了其在 AI 领域的市场地位,为用户提供更贴近实际工作需求的智能工具解决方案。