AI狼人杀掀起智力狂欢:淘宝搭建全球首个对战平台,GPT、Qwen等模型博弈惊艳,人类玩家叹服

【量子位 2025年12月24日讯】当AI开始玩转“狼人杀”,人类高玩也得甘拜下风。12月23日,淘天集团(淘宝)打造的全球首个实时对战多智能体游戏平台WhoisSpy.ai引发热议,GPT、Qwen、DeepSeek、Kimi、GLM等主流大模型化身“狼人杀玩家”,在12人狼王守卫局中上演逻辑博弈、身份伪装与策略对抗,其精准的决策判断与灵活的战术应变,让不少人类十年老玩家直呼“玩不过”。

与此同时,平台发起的首届“高校生VS开发者AI狼人杀对抗赛”正火热进行,截至目前已有718位选手报名,6866场练习赛激烈开战。这场AI与AI的智力对决,不仅是一场趣味竞技,更成为测试大模型社交推理、博弈协作能力的“天然试验场”。

模型各显神通:Kimi带队控场,Qwen倒钩卖队友,GLM守卫预判封神

在WhoisSpy.ai平台的12人狼王守卫经典对局中(8名好人:4神职+4平民;4名狼人:含1狼王),各大模型展现出截然不同的“游戏性格”与战术风格,一场对局甚至出现“全程平安夜、狼人零刀人”的罕见局面:

  • Kimi:神职阵营的“控场王者”化身5号女巫的Kimi,首夜救起被刀的3号玩家后,迅速在警上亮明身份,通过“银水存疑+预警7、10号玩家”建立话语权,后续又凭借“2、4、8号发言冲突必有狼”的精准判断,带领好人阵营锁定假预言家10号,推动其高票出局。其逻辑链清晰且行动力强,被玩家评价为“像极了常年carry全场的人类高玩”。

  • Qwen:狼人阵营的“心机代表”7号Qwen狼人堪称“倒钩狼典范”,被Kimi预警后立即“祸水东引”,将矛头指向同为狼人的4号狼王;10号Qwen则悍跳预言家,给7号发“金水”试图混淆视线,虽因发言漏洞(先认预言家又怀疑7号是真预言家)暴露破绽,却一度骗过部分模型。不过最戏剧性的是,10号最终竟“狠起来投自己”,成为对局中的趣味名场面。

  • DeepSeek:平民与预言家的“稳健担当”1号、3号DeepSeek平民虽初期“划水”复述前置位发言,但关键时刻能跟随逻辑正确投票;而2号DeepSeek预言家更堪称“天神下凡”,首夜查杀4号狼王,第二夜再查杀7号狼人,结合投票记录顺藤摸瓜锁定11号狼人,最终将4、7、10、11号四狼全部揪出,成为好人阵营获胜的“关键先生”。

  • GLM:守卫的“预判天花板”12号GLM守卫展现出惊人的预判能力,每一夜都精准守护狼人计划刀杀的目标——无论是神职还是关键平民,均未让狼人成功“刀人”,全程保持“平安夜”,直接瓦解狼人阵营的核心战术,被网友调侃“狼人刀谁它守谁,简直开了‘上帝视角’”。

平台与赛事:零门槛搭建AI玩家,高校生与开发者同台竞技

WhoisSpy.ai之所以引发关注,不仅在于模型的精彩表现,更因其“开放可扩展”的特性降低了AI狼人杀的参与门槛,而淘宝发起的对抗赛则让这场技术狂欢覆盖更多人群:

  • 全球首个多智能体实时对战平台该平台支持中英文双版本,除12人狼人杀外,还包含“谁是卧底”等玩法,核心优势在于“实时交互”与“灵活扩展”——多个AI可在同一空间同步博弈,开发者还能通过官方工具自行添加新Agent。平台通过限制“单轮发言≤240字、限时90秒”“1小时内多次发言失败即清退”等规则,避免模型“无限唠嗑”,保障对局效率。

  • 高校生VS开发者的“跨界PK”此次对抗赛将选手分为两大阵营:高校生团队擅长打造“性格鲜明的Agent”(如会自嘲的“喜剧人Qwen”),开发者团队则更注重策略深度(如沉默却精准的GLM守卫)。参赛门槛极低,即使是编程小白,也能按照官方指南“三步搭建专属Agent”:

  1. 复制Agent示例代码,填入模型名称、API密钥等配置;

  2. 等待空间构建完成,查看日志确认运行状态;

  3. 上传至WhoisSpy.ai,选择“小试牛刀”(不计分)或“加入战斗”(计分冲榜)。平台还支持Agent优化,开发者可通过日志查看模型输入输出,修改prompt.py(提示词脚本)或app.py(行为代码),调整AI的发言风格与决策逻辑。

  • 丰厚奖励与实战价值赛事设置1万元(第1名)至500元天猫超市卡(11-20名)的现金及实物奖励,高校组Top3更可直通阿里巴巴淘天集团技术实习岗终面,Top20获暑期AI Workshop资格。对参与者而言,这不仅是趣味比赛,更是实践大模型社交推理、博弈策略的“练兵场”——相较于传统测评,狼人杀更能考验模型的长时推理、多角色协作与动态应变能力。

模型能力比拼:Claude综合最强,GPT-5狼人胜率领先

除了对抗赛,WhoisSpy.ai平台还公布了官方内部评测榜单,通过6人局(2狼+4好人,含预言家、女巫)、150场对战的标准化测试,评选出综合表现Top3模型:

  • Claude-Sonnet-4.5:以57.33%整体胜率、50%狼人胜率及152.59综合评分夺冠,其优势在于“全能性”,无论是作为狼人引导局势,还是作为好人识别骗局,表现均稳定且出色,被评价为“最像人类均衡玩家的模型”。

  • GPT-5:虽整体胜率(59.33%)与狼人胜率(53.06%)略高于Claude,但因关键对局失利导致综合评分(129.59)屈居第二,其风格偏“激进控场”,擅长通过逻辑框架主导发言节奏,但偶尔会因过度自信暴露破绽。

  • Qwen3-235B-Thinking:作为排名最高的开源模型,以53.33%整体胜率、43.18%狼人胜率及111.65综合评分位列第三,表现均衡无明显短板,成为开源领域的“标杆选手”。

行业意义:从“趣味游戏”到“AI社交推理测试场”

这场AI狼人杀狂欢背后,实则是大模型“社交智能”进步的缩影。传统测评多聚焦代码、数学等单一能力,而狼人杀需要模型理解身份关系、隐藏真实意图、说服他人合作,甚至在“欺骗”与“反欺骗”中动态调整策略——这些正是AI走向复杂人机交互场景的关键能力。

正如淘天集团技术团队所言:“让AI玩狼人杀,不仅是为了有趣,更是想通过这种高复杂度的社交场景,探索大模型的协作、推理与应变边界。”目前,平台已开放对局围观功能(可通过房间号查看历史对局),感兴趣的用户可登录WhoisSpy.ai“偷师学艺”,而正式赛(12月24日-31日)的角逐仍在继续,最终究竟是高校生团队的创意Agent更胜一筹,还是开发者的策略型AI笑到最后,值得期待。

对普通玩家而言,这场AI狼人杀或许是一次“认知刷新”——当模型能像人类一样玩转逻辑博弈与心理战术,或许未来的“桌游局”,真的会出现“人类与AI同桌竞技”的日常场景。

© 版权声明

相关文章