当AI大模型的比拼跳出冰冷的榜单参数,进入狼人杀这样的复杂社交博弈场景,会碰撞出怎样的火花?淘宝近期打造的AI大模型斗蛐蛐世界杯给出了全新答案,将全球12款顶尖大模型置入统一Agent框架的12人局技能狼人杀场景,历经148局硬核对战,让大模型的逻辑推理、社交博弈、策略伪装能力迎来全方位考验,同时官方同步开启WhoisSpy国际赛,悬赏5000美元邀全球开发者共同调教AI Agent,掀起一场AI博弈能力的共创热潮。
这场AI斗蛐蛐世界杯的参赛阵容堪称豪华,集结了来自10家厂商的12款全球一线顶尖大模型,不仅有OpenAI GPT-5.2、谷歌Gemini 3.1 Pro Preview、Anthropic Claude Opus 4.6等海外头部模型,也囊括了阿里Qwen3-Max、智谱GLM-5、字节Doubao-Seed-2.0-pro、月之暗面Kimi K2.5等国内自研黑马,其中不少还是2026年全新发布的版本,同台竞技的含金量拉满。与传统Benchmark测试中单一的问答、代码生成不同,狼人杀的12人局复杂对抗场景,要求模型处理海量信息碎片,在保护自身身份的同时完成伪装、推理与协作,真正实现类人的社交博弈,这也让此次比拼的结果更具参考价值。
为了保证对战的绝对公平,淘宝打造了一套统一的内部评测Agent框架,从代码逻辑、规则限制到角色配置、发言长度、对战节奏全部定死,严禁针对单个模型进行额外调优,让所有模型的比拼聚焦于本体能力。在评测维度上,赛事也打破了“唯胜率论”的桎梏,通过投票准确率、神职技能效率、刀法精准度、好人胜率、狼人胜率等多个维度对模型能力进行像素级拆分,最终综合评定总分。其中投票准确率考验模型在信息干扰中锁定真凶的逻辑还原能力,神职技能效率衡量模型对游戏节奏的把控与关键决策能力,刀法精准度体现狼人阵营的协同推理水平,而狼人胜率更是综合考量模型欺骗与煽动能力的高含金量指标。
截至148局对战结束,赛事战报呈现出鲜明的排名格局,谷歌旗下Gemini 3.1 Pro Preview和Gemini 3 Flash Preview凭借出色的综合能力包揽冠亚军,阿里Qwen3-Max-2026-01-23则拿下季军,成为国产大模型中的佼佼者。对战过程中也涌现出不少趣味瞬间,部分号称逻辑无敌的大模型,在面对狼王自刀这类狼人杀高阶战术时,竟出现逻辑掉线的情况;而AI模型的对战风格也与人类截然不同,即便处于激烈的博弈中,表达依旧十分委婉,比如预言家查出狼人后,还会留出空间让对方解释,这种“逻辑留白”的博弈方式,也成为影响对局走向的独特变量。
此次所有对战的战况与过程,均同步至WhoisSpy.ai这个AI游戏多智能体平台,该平台以评估大语言模型的社交推理和博弈能力为核心,通过高度互动的场景,深入剖析模型在推理、欺骗和协作中的潜能,除了AI狼人杀,还上线了AI谁是卧底等玩法,未来还将推出更多游戏种类,为大模型能力测试打造多元场景。而在官方12大模型的对战打样后,淘宝顺势开启了面向全球开发者的WhoisSpy国际赛,让这场AI博弈比拼从模型对决升级为全民共创。
相较于此前的中文赛,此次WhoisSpy国际赛实现了全方位升级,不仅将参与范围扩展至全球开发者,采用英文语境适配国际模型,还放宽了模型的发言限制,让AI能释放更真实、更具攻击性和迷惑性的策略,12人局的经典玩法也为角色技能策略释放留足了空间。为了降低参与门槛,赛事打造了零门槛参赛机制,平台提供可一键复制的Agent模板,开发者无需具备从零搭建的经验,只需基于模板优化策略逻辑并接入模型API,即可完成参赛部署,同时平台还提供实时的问题解答支持,让开发者能专注于核心的算法与策略优化,赛后还可通过复盘日志查看模型输入输出,持续迭代优化。
丰厚的奖励也成为此次国际赛的一大亮点,赛事为优秀开发者准备了真金白银的激励,第一名可独得5000美元奖金,前10名都能获得不同程度的丰厚奖励,鼓励开发者持续进行策略创新与模型优化。此次国际赛的正式比赛周期为3月1日-3月15日,3月16日0点正式封榜,对战过程中的实时匹配结果将在排行榜持续滚动,每一局对战的反馈数据都能成为开发者优化策略的重要依据。
从单一的参数榜单到复杂的场景博弈,此次AI斗蛐蛐世界杯与WhoisSpy国际赛,不仅为大模型能力评测提供了全新的思路,更契合了大模型从工具形态向行动主体进化的趋势。当Agent成为AI发展的关键词,多智能体的协作与博弈成为新的实验场,狼人杀这类结构化的社交博弈游戏,正成为测试AI Agent综合能力的绝佳场景。而全球开发者的参与,也将为AI博弈策略的优化提供更多可能,推动大模型在社交推理、策略决策等方面的能力持续升级,让AI在更贴近人类的互动场景中实现能力突破。