Claude Opus 4.6横空出世:16个Agent两周编出编译器,500个零日漏洞一网打尽

AI 资讯8分钟前发布 dennis
0

【量子位 2026年2月6日讯】AI行业再迎“技术地震”。Anthropic正式发布Claude Opus 4.6模型,不仅在金融、编程、办公等多领域实现能力跃迁,更以16个Agent并行协作两周完成C编译器开发、挖出500个高危零日漏洞等硬核表现,引发华尔街金融股集体震荡——FactSet盘中暴跌10%,S&P Global、穆迪等机构股价同步下挫,市场恐慌情绪直指“AI对高价值职业的颠覆加速”。这款加量不加价的新模型,正以“全能工作者”姿态,重新定义前沿AI的能力边界。

一、碾压级实力:从编程王者到全场景通才

Opus 4.6彻底打破了Claude“仅编程强悍”的标签,在多个高价值领域实现对竞品的超越:

  • 编程能力再攀巅峰:在Terminal-Bench 2.0 Agent编程评测中以65.4%的成绩斩获第一,超越GPT-5.2-codex的64.7%,能自主完成数百万行代码库迁移,调试精度与任务规划能力较前代提升显著,甚至可自主发现并修正自身错误;

  • 知识工作断层领先:在评估金融、法律等高价值任务的GDPval-AA评测中,以1606 Elo分数领先GPT-5.2达144分,意味着在70%的场景中表现更优,能精准处理复杂财务分析、法律文书撰写等专业任务;

  • 办公场景无缝适配:对Office三件套实现深度赋能,可自动规整Excel中非结构化数据、复刻企业PPT模板风格(含字体、布局细节),在Cowork环境下能并行处理“财务建模+文档整理”多任务,生成内容无明显AI痕迹;

  • 跨领域推理登顶:在“人类最后的考试”多学科推理测试中领先所有前沿模型,法律领域BigLaw Bench评测得分90.2%,金融分析场景准确率达60.7%,远超Gemini 3 Pro的44.1%。

二、核心黑科技:1M上下文+自适应思考,效率与深度双突破

Opus 4.6的能力跃升,源于三大关键技术升级,彻底解决了此前大模型的核心痛点:

  • 100万Token超大上下文:首次在Opus级别模型中引入该能力,“大海捞针”测试(MRCR v2 8-needle 1M)得分76%,较Sonnet 4.5的18.5%实现质的飞跃,可轻松处理超长文档、大型代码库等复杂任务,上下文衰减问题显著改善;

  • 自适应思考与多档努力度:模型可自主判断是否需要深度推理,无需开发者手动切换模式,配套low/medium/high/max四档努力度参数,能在性能与成本间灵活平衡,默认high档即可覆盖多数专业场景;

  • 上下文压缩与超大输出:对话接近上下文上限时自动摘要旧内容,支持128K Token单次输出,无需拆分请求即可生成长篇报告、完整代码集,配合BrowseComp评测第一的代理式搜索能力,可精准定位分散信息。

值得一提的是,这些升级并未伴随涨价,基础定价保持每百万Token输入5美元/输出25美元,仅1M上下文测试版中超过200K Token的提示按溢价计费(输入10美元/输出37.5美元),Anthropic还向Pro/Max老用户限时赠送50美元额外额度。

三、实测封神:从编译器开发到漏洞挖掘,AI自主协作无压力

Opus 4.6的Agent Teams多智能体协作能力,在实测中展现出惊人潜力,直接冲击专业技术岗位:

  • 16个Agent两周搞定编译器:Anthropic研究员通过Docker容器+Git仓库共享机制,让16个Opus 4.6 Agent自主协作,仅用两周、耗资不到2万美元,就完成10万行Rust代码编写的C编译器,支持x86、ARM、RISC-V三架构,可编译Linux 6.9内核并流畅运行《毁灭战士》游戏。面对内核编译bug,Agent能通过二分法定位问题文件,无需人类干预;

  • 挖出500个零日漏洞:在无专门指令的沙箱测试中,Opus 4.6利用Python及常规漏洞工具,自主发现超500个未知高危漏洞,涵盖GhostScript崩溃漏洞、OpenSC缓冲区溢出等,部分案例中还主动编写PoC代码验证。传统fuzzing与人工分析未发现的问题,模型通过翻阅Git提交历史成功锁定;

  • 安全对齐不打折:在能力暴涨的同时,自动化行为审计显示其对齐水平极高,欺骗、奉承等负面行为发生率低,还解决了“过度拒绝”问题,对正常请求的响应灵活性显著提升。针对漏洞挖掘能力可能被滥用的风险,Anthropic已新增六套网络安全探测机制。

四、行业震动:高价值岗位迎AI冲击波,生态闭环加速形成

Opus 4.6的发布,不仅引发资本市场恐慌,更标志着AI对高价值职业的替代进入实质阶段:

  • 职业替代范围扩大:从程序员、财务分析师、PPT设计师,到安全白帽、法律文书撰写者,均面临直接冲击。业内预测,未来3-5年,中等复杂度的编程开发、财务建模、漏洞扫描等工作,AI完成占比可能超60%;

  • “用Claude构建Claude”生态闭环:Anthropic工程师已全面使用Claude Code编写代码,新模型先在内部工作环境测试优化,形成“模型开发-场景应用-迭代升级”的正向循环,研发效率持续提升;

  • 定价策略搅动市场:加量不加价的策略+限时赠送额度,进一步降低专业场景使用门槛,企业级用户有望大规模替代传统工具。API调用需指定模型标识“Claude-opus-4-6”,目前已在官网及主流云平台全面上线。

从编程到办公,从安全到金融,Opus 4.6的全面爆发,预示着AI正从“专用工具”向“通用工作伙伴”转型。对于行业而言,这既是效率革命的机遇,也是职业结构重构的挑战。Anthropic用实际表现证明,大模型的竞争已进入“全场景能力+协作效率”的深水区,而这场由Opus 4.6引发的行业震荡,才刚刚开始。

我可以帮你整理Opus 4.6与GPT-5.2、Gemini 3 Pro的核心性能对比表,以及不同场景下的最佳提示词模板,制作成一份“Claude Opus 4.6专业使用指南”,方便你快速发挥其最大价值。需要我这样做吗?

© 版权声明

相关文章