AI律师不再是空想？Anthropic新模型跑分飙升，专业任务能力大幅突破

0 0

【量子位 2026年2月7日讯】曾被判定为“暂时无法替代人类”的AI在法律等专业领域的能力，迎来突破性进展。此前Mercor推出的专业任务基准测试中，各大AI实验室的模型在法律、企业分析等任务上得分均不足25%，让律师等专业岗位暂时放下被AI替代的顾虑。而Anthropic最新发布的Opus 4.6模型，一举刷新该测试榜单，让AI代理在专业领域的落地可能性大幅提升，也预示着大模型在专业任务上的能力进化正加速推进。

此前，Mercor推出的APEX-Agents基准测试成为衡量AI代理专业任务能力的重要标尺，该测试聚焦法律、企业分析等对逻辑和专业性要求极高的工作，考验AI的多步骤问题解决能力。在去年的测试中，所有主流大模型的得分均低于25%，惨淡的成绩让行业得出结论：至少现阶段，律师等专业岗位无需担心被AI取代。

但AI技术的迭代速度远超想象，短短数月时间，Anthropic的新模型便带来了颠覆性变化。此次发布的Opus 4.6模型在Mercor的基准测试中表现亮眼，在单次尝试的one-shot测试中得分逼近30%，达到29.8%；而在多次尝试的情况下，平均得分更是升至45%，相较于此前的行业最佳成绩实现跨越式增长。这一成绩也让Opus 4.6稳居APEX-Agents榜单首位，大幅领先其他竞品——谷歌Gemini 3 Flash以24.0%的得分位居第二，OpenAI的GPT 5.2则以23.0%位列第三，二者与Opus 4.6均存在明显差距。

值得一提的是，Anthropic Opus 4.6的成绩较自身前代产品也实现了飞跃，其4.5版本在该测试中的得分仅为18.4%，此次直接飙升至29.8%，涨幅超60%。这样的进步速度也让Mercor首席执行官Brendan Foody直呼震撼，直言“短短几个月从18.4%跃升至29.8%，这一进步堪称疯狂”，而这也从侧面印证了大模型技术在基础能力上的进化从未放缓。

Opus 4.6的大幅突破，与其新增的智能体特性密不可分。Anthropic在该模型中加入了包括“智能体集群（agent swarms）”在内的一系列全新agentic功能，这一设计让模型在处理法律这类多步骤、强逻辑的专业任务时，具备了更高效的问题拆解和分析能力，能够像人类专业从业者一样，分步推进问题解决，这也成为其得分大幅提升的关键原因。

尽管29.8%的单次测试得分、45%的平均得分距离100%的满分仍有不小差距，律师等专业岗位短期内并不会被AI彻底取代，但此次Opus 4.6的表现，已然打破了行业对AI专业能力的固有认知。相较于上个月全行业不足25%的测试成绩，此次Anthropic的突破让AI在专业任务上的能力实现了质的飞跃，也让相关从业者无法再对AI的发展视而不见。

从最初在专业领域的“手足无措”，到如今在基准测试中实现得分翻倍，AI代理在法律、企业分析等专业任务上的能力提升有目共睹。此次Anthropic Opus 4.6的突破，不仅是单一模型的进步，更是整个大模型行业在专业能力上的一次重要探索。随着智能体功能的不断优化、模型对专业任务理解的持续加深，未来AI在专业领域的应用边界还将不断拓展，或许在不久的将来，AI就能成为律师、分析师等专业从业者的得力助手，甚至在部分细分专业场景中实现独立落地。而此次Opus 4.6的跑分飙升，正是这一未来的重要信号。

# AI 资讯