2025 年 11 月 23 日,AI 领域知名学者 Andrej Karpathy(卡帕西)发布趣味编程项目 “LLM Council”(大模型议会)web 应用,创新采用多模型匿名互评模式进行大模型横评,引发行业广泛关注。该应用通过调用四大顶尖大模型协同答题、互相打分,最终由主席模型汇总输出统一答案,不仅为大模型评测提供了全新思路,其测试结果也超出预期。
“大模型议会” 的核心玩法极具创新性,整个流程分为三步:首先通过 OpenRouter 中间层同步调用 GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5、Grok-4 四大模型,让它们针对同一用户问题分别作答并展示;随后对所有模型身份进行匿名化处理,每个模型需根据准确性和洞察力,为其他模型的回答打分并给出详细评价理由;最后由指定的主席模型整合所有回复与评分,生成最终答案反馈给用户。
这一设计延续了卡帕西此前提出的 “LLM 分阶段深度阅读” 理念,他表示开发该项目的初衷是为了在与大模型协作阅读时,能直观对比不同模型的回答风格与质量。项目上线后迅速走红,GitHub 仓库已收获 1.8k Stars,网友纷纷表示这种多模型互评模式新颖有趣,甚至可能成为未来大模型实时基准测试、去偏置的有效方式。
测试结果呈现出意外亮点:四大模型内部互评一致认为 GPT-5.1 的答案最强、最具洞见,Gemini 3 Pro Preview 与 Grok-4 位居中间,Claude Sonnet 4.5 排名最末。但卡帕西的主观评价却有所不同,他认为 GPT-5.1 内容丰富但结构不够紧凑,Gemini 3 Pro Preview 的答案更简洁凝练、信息处理更优,而 Claude Sonnet 4.5 的回复则过于简略。更令人惊喜的是,模型在互评中几乎无明显偏见,时常会主动承认自身答案不及其他模型。
卡帕西表示,尽管模型自评与人类主观判断存在差异,但多模型集成的思路具备巨大探索空间,有望成为未来 LLM 产品的突破点。该项目虽为卡帕西利用周末开发的趣味作品,且不提供官方技术支持,但已为大模型评测与应用创新提供了全新视角,激发了行业对多模型协同交互的进一步思考。