【量子位 2026年2月7日讯】曾被判定为“暂时无法替代人类”的AI在法律等专业领域的能力,迎来突破性进展。此前Mercor推出的专业任务基准测试中,各大AI实验室的模型在法律、企业分析等任务上得分均不足25%,让律师等专业岗位暂时放下被AI替代的顾虑。而Anthropic最新发布的Opus 4.6模型,一举刷新该测试榜单,让AI代理在专业领域的落地可能性大幅提升,也预示着大模型在专业任务上的能力进化正加速推进。
此前,Mercor推出的APEX-Agents基准测试成为衡量AI代理专业任务能力的重要标尺,该测试聚焦法律、企业分析等对逻辑和专业性要求极高的工作,考验AI的多步骤问题解决能力。在去年的测试中,所有主流大模型的得分均低于25%,惨淡的成绩让行业得出结论:至少现阶段,律师等专业岗位无需担心被AI取代。
但AI技术的迭代速度远超想象,短短数月时间,Anthropic的新模型便带来了颠覆性变化。此次发布的Opus 4.6模型在Mercor的基准测试中表现亮眼,在单次尝试的one-shot测试中得分逼近30%,达到29.8%;而在多次尝试的情况下,平均得分更是升至45%,相较于此前的行业最佳成绩实现跨越式增长。这一成绩也让Opus 4.6稳居APEX-Agents榜单首位,大幅领先其他竞品——谷歌Gemini 3 Flash以24.0%的得分位居第二,OpenAI的GPT 5.2则以23.0%位列第三,二者与Opus 4.6均存在明显差距。
值得一提的是,Anthropic Opus 4.6的成绩较自身前代产品也实现了飞跃,其4.5版本在该测试中的得分仅为18.4%,此次直接飙升至29.8%,涨幅超60%。这样的进步速度也让Mercor首席执行官Brendan Foody直呼震撼,直言“短短几个月从18.4%跃升至29.8%,这一进步堪称疯狂”,而这也从侧面印证了大模型技术在基础能力上的进化从未放缓。
Opus 4.6的大幅突破,与其新增的智能体特性密不可分。Anthropic在该模型中加入了包括“智能体集群(agent swarms)”在内的一系列全新agentic功能,这一设计让模型在处理法律这类多步骤、强逻辑的专业任务时,具备了更高效的问题拆解和分析能力,能够像人类专业从业者一样,分步推进问题解决,这也成为其得分大幅提升的关键原因。
尽管29.8%的单次测试得分、45%的平均得分距离100%的满分仍有不小差距,律师等专业岗位短期内并不会被AI彻底取代,但此次Opus 4.6的表现,已然打破了行业对AI专业能力的固有认知。相较于上个月全行业不足25%的测试成绩,此次Anthropic的突破让AI在专业任务上的能力实现了质的飞跃,也让相关从业者无法再对AI的发展视而不见。
从最初在专业领域的“手足无措”,到如今在基准测试中实现得分翻倍,AI代理在法律、企业分析等专业任务上的能力提升有目共睹。此次Anthropic Opus 4.6的突破,不仅是单一模型的进步,更是整个大模型行业在专业能力上的一次重要探索。随着智能体功能的不断优化、模型对专业任务理解的持续加深,未来AI在专业领域的应用边界还将不断拓展,或许在不久的将来,AI就能成为律师、分析师等专业从业者的得力助手,甚至在部分细分专业场景中实现独立落地。而此次Opus 4.6的跑分飙升,正是这一未来的重要信号。