2025 年 11 月 23 日消息,AI 领域知名学者安德烈・卡帕西(Andrej Karpathy)推出趣味编程项目「LLM Council」(大模型议会)web 应用,凭借 “多模型匿名商议 + 互评打分” 的创新形式引发热议。该工具通过调用四大主流大模型共同解题、互相点评,最终输出统一答案,不仅为大模型横评提供了新思路,其测试结果也颇具意外性。
这款应用的操作逻辑简洁且充满巧思。用户输入问题后,系统会通过 OpenRouter 中间层同时调用 GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5、Grok-4 四大模型,第一步先收集所有模型的独立回复并以标签化形式展示;第二步进入 “匿名互评” 环节,所有模型的身份被隐藏,各自需根据准确性和洞察力为其他模型的回答打分并给出详细评价理由;最后由指定的 “主席模型” 汇总所有观点,生成最终回复。
卡帕西透露,开发该项目的初衷是为了探索 “与 LLM 协作深度阅读” 的新模式 —— 将传统阅读拆分为人工通读、模型解析、深度追问三个阶段,而多模型商议能让内容理解更全面。这一思路也得到网友积极响应,有观点认为,这种多模型集成方式可能成为未来大模型实时基准测试、去偏置的有效方案,模型互相批评甚至主动承认他人答案更优的场景,被网友调侃 “像看 AI 版辩论会”。
测试结果呈现出双重看点:一方面,四大模型内部互评形成了明确排名 ——GPT-5.1 被一致推选为 “最强”,凭借丰富的内容和深刻的洞察力领跑,Gemini 3 Pro Preview 与 Grok-4 位居中游,Claude Sonnet 4.5 则被评为表现最弱;另一方面,卡帕西的个人主观评价却与之存在差异,他认为 GPT-5.1 内容虽全但结构松散,Gemini 3 Pro Preview 的回答更简洁凝练、信息处理效率更高,而 Claude Sonnet 4.5 的回复则过于简略。
值得一提的是,测试中模型展现出了难得的 “客观性”,极少出现明显偏见,甚至会主动承认自身答案的不足。卡帕西表示,尽管模型自评与人类主观判断未必完全一致,但 “多模型议会” 模式打开了巨大的探索空间,未来有望成为 LLM 产品的创新突破点。目前,该项目的 GitHub 仓库已收获 337 颗星,安装部署教程公开后,不少开发者已着手尝试自定义模型组合进行测试。
从趣味编程项目到引发行业对大模型评测方式的思考,卡帕西的 “大模型议会” 再次证明,AI 领域的创新既可以来自硬核技术突破,也能源于对现有工具的巧妙重组,而模型之间的 “互相监督” 或许将成为提升 AI 输出质量的新路径。