AI狼人杀掀起智力狂欢：淘宝搭建全球首个对战平台，GPT、Qwen等模型博弈惊艳，人类玩家叹服

0 0

【量子位 2025年12月24日讯】当AI开始玩转“狼人杀”，人类高玩也得甘拜下风。12月23日，淘天集团（淘宝）打造的全球首个实时对战多智能体游戏平台WhoisSpy.ai引发热议，GPT、Qwen、DeepSeek、Kimi、GLM等主流大模型化身“狼人杀玩家”，在12人狼王守卫局中上演逻辑博弈、身份伪装与策略对抗，其精准的决策判断与灵活的战术应变，让不少人类十年老玩家直呼“玩不过”。

与此同时，平台发起的首届“高校生VS开发者AI狼人杀对抗赛”正火热进行，截至目前已有718位选手报名，6866场练习赛激烈开战。这场AI与AI的智力对决，不仅是一场趣味竞技，更成为测试大模型社交推理、博弈协作能力的“天然试验场”。

模型各显神通：Kimi带队控场，Qwen倒钩卖队友，GLM守卫预判封神

在WhoisSpy.ai平台的12人狼王守卫经典对局中（8名好人：4神职+4平民；4名狼人：含1狼王），各大模型展现出截然不同的“游戏性格”与战术风格，一场对局甚至出现“全程平安夜、狼人零刀人”的罕见局面：

Kimi：神职阵营的“控场王者”化身5号女巫的Kimi，首夜救起被刀的3号玩家后，迅速在警上亮明身份，通过“银水存疑+预警7、10号玩家”建立话语权，后续又凭借“2、4、8号发言冲突必有狼”的精准判断，带领好人阵营锁定假预言家10号，推动其高票出局。其逻辑链清晰且行动力强，被玩家评价为“像极了常年carry全场的人类高玩”。
Qwen：狼人阵营的“心机代表”7号Qwen狼人堪称“倒钩狼典范”，被Kimi预警后立即“祸水东引”，将矛头指向同为狼人的4号狼王；10号Qwen则悍跳预言家，给7号发“金水”试图混淆视线，虽因发言漏洞（先认预言家又怀疑7号是真预言家）暴露破绽，却一度骗过部分模型。不过最戏剧性的是，10号最终竟“狠起来投自己”，成为对局中的趣味名场面。
DeepSeek：平民与预言家的“稳健担当”1号、3号DeepSeek平民虽初期“划水”复述前置位发言，但关键时刻能跟随逻辑正确投票；而2号DeepSeek预言家更堪称“天神下凡”，首夜查杀4号狼王，第二夜再查杀7号狼人，结合投票记录顺藤摸瓜锁定11号狼人，最终将4、7、10、11号四狼全部揪出，成为好人阵营获胜的“关键先生”。
GLM：守卫的“预判天花板”12号GLM守卫展现出惊人的预判能力，每一夜都精准守护狼人计划刀杀的目标——无论是神职还是关键平民，均未让狼人成功“刀人”，全程保持“平安夜”，直接瓦解狼人阵营的核心战术，被网友调侃“狼人刀谁它守谁，简直开了‘上帝视角’”。

平台与赛事：零门槛搭建AI玩家，高校生与开发者同台竞技

WhoisSpy.ai之所以引发关注，不仅在于模型的精彩表现，更因其“开放可扩展”的特性降低了AI狼人杀的参与门槛，而淘宝发起的对抗赛则让这场技术狂欢覆盖更多人群：

全球首个多智能体实时对战平台该平台支持中英文双版本，除12人狼人杀外，还包含“谁是卧底”等玩法，核心优势在于“实时交互”与“灵活扩展”——多个AI可在同一空间同步博弈，开发者还能通过官方工具自行添加新Agent。平台通过限制“单轮发言≤240字、限时90秒”“1小时内多次发言失败即清退”等规则，避免模型“无限唠嗑”，保障对局效率。
高校生VS开发者的“跨界PK”此次对抗赛将选手分为两大阵营：高校生团队擅长打造“性格鲜明的Agent”（如会自嘲的“喜剧人Qwen”），开发者团队则更注重策略深度（如沉默却精准的GLM守卫）。参赛门槛极低，即使是编程小白，也能按照官方指南“三步搭建专属Agent”：

复制Agent示例代码，填入模型名称、API密钥等配置；
等待空间构建完成，查看日志确认运行状态；
上传至WhoisSpy.ai，选择“小试牛刀”（不计分）或“加入战斗”（计分冲榜）。平台还支持Agent优化，开发者可通过日志查看模型输入输出，修改prompt.py（提示词脚本）或app.py（行为代码），调整AI的发言风格与决策逻辑。

丰厚奖励与实战价值赛事设置1万元（第1名）至500元天猫超市卡（11-20名）的现金及实物奖励，高校组Top3更可直通阿里巴巴淘天集团技术实习岗终面，Top20获暑期AI Workshop资格。对参与者而言，这不仅是趣味比赛，更是实践大模型社交推理、博弈策略的“练兵场”——相较于传统测评，狼人杀更能考验模型的长时推理、多角色协作与动态应变能力。

模型能力比拼：Claude综合最强，GPT-5狼人胜率领先

除了对抗赛，WhoisSpy.ai平台还公布了官方内部评测榜单，通过6人局（2狼+4好人，含预言家、女巫）、150场对战的标准化测试，评选出综合表现Top3模型：

Claude-Sonnet-4.5：以57.33%整体胜率、50%狼人胜率及152.59综合评分夺冠，其优势在于“全能性”，无论是作为狼人引导局势，还是作为好人识别骗局，表现均稳定且出色，被评价为“最像人类均衡玩家的模型”。
GPT-5：虽整体胜率（59.33%）与狼人胜率（53.06%）略高于Claude，但因关键对局失利导致综合评分（129.59）屈居第二，其风格偏“激进控场”，擅长通过逻辑框架主导发言节奏，但偶尔会因过度自信暴露破绽。
Qwen3-235B-Thinking：作为排名最高的开源模型，以53.33%整体胜率、43.18%狼人胜率及111.65综合评分位列第三，表现均衡无明显短板，成为开源领域的“标杆选手”。

行业意义：从“趣味游戏”到“AI社交推理测试场”

这场AI狼人杀狂欢背后，实则是大模型“社交智能”进步的缩影。传统测评多聚焦代码、数学等单一能力，而狼人杀需要模型理解身份关系、隐藏真实意图、说服他人合作，甚至在“欺骗”与“反欺骗”中动态调整策略——这些正是AI走向复杂人机交互场景的关键能力。

正如淘天集团技术团队所言：“让AI玩狼人杀，不仅是为了有趣，更是想通过这种高复杂度的社交场景，探索大模型的协作、推理与应变边界。”目前，平台已开放对局围观功能（可通过房间号查看历史对局），感兴趣的用户可登录WhoisSpy.ai“偷师学艺”，而正式赛（12月24日-31日）的角逐仍在继续，最终究竟是高校生团队的创意Agent更胜一筹，还是开发者的策略型AI笑到最后，值得期待。

对普通玩家而言，这场AI狼人杀或许是一次“认知刷新”——当模型能像人类一样玩转逻辑博弈与心理战术，或许未来的“桌游局”，真的会出现“人类与AI同桌竞技”的日常场景。

# AI 资讯