智谱GLM-4.7逆袭开源编程榜:碾压GPT-5.2,自研Slime框架+三重思考机制揭秘

AI 资讯5小时前发布 dennis
0

【量子位 2025年12月26日讯】国产大模型再登开源之巅!12月25日,正冲刺港交所IPO的智谱AI,凭借最新旗舰模型GLM-4.7引爆全球开发者社区——该模型不仅在代码竞技场WebDev榜单上力压GPT-5.2,拿下开源大模型全球第一,更在SWE-bench-Verified、LiveCodeBench V6等权威编程测试中创下开源SOTA(当前最佳)成绩,对齐Claude Sonnet 4.5。

为解密模型背后的技术突破,智谱团队于Reddit举办了长达3小时的AMA(Ask Me Anything)活动,首次曝光自研强化学习框架Slime、“三重思考机制”等核心技术,同时承诺“上市后持续开源”,给全球开发者吃下定心丸。从实测“植物大战僵尸”游戏开发到商用级PPT生成,GLM-4.7用“能思考、会落地”的表现,重新定义国产编程大模型的实力边界。

性能封神:多维度刷新开源纪录,编程能力看齐闭源旗舰

GLM-4.7的“开源第一”并非偶然,而是在多语言编码、复杂推理、工具调用等核心维度的全面突破,实测数据与开发者反馈均印证其硬实力:

  • 编程基准霸榜,开源领域无对手在编程核心评测中,GLM-4.7交出亮眼成绩单:SWE-bench-Verified(真实代码修复测试)以73.8%的正确率创开源新高,较上一代GLM-4.6提升5.8%;LiveCodeBench V6(多语言编程竞赛测试)达84.9%,超越Claude Sonnet 4.5;Terminal Bench 2.0(终端操作测试)得分41%,提升幅度达16.5%。更关键的是,在全球百万用户参与的Code Arena盲测中,其WebDev(网页开发)能力超越GPT-5.2,成为首个登顶该榜单的国产开源模型。

开发者实测中,GLM-4.7展现出“碾压级”优势:有网友同时用GLM-4.7与Gemini 3开发桌版溜溜球游戏,前者不仅实现拖拽蓄力、碰撞反弹等核心物理效果,还自动优化了UI交互逻辑,代码可直接运行;而Gemini 3生成的代码存在多处语法错误,需手动调试才能启动。

  • 多语言覆盖广,冷门场景也能hold住不同于传统模型“偏科Python/JS”,GLM-4.7在多语言编码上表现均衡:既支持Java、Golang等主流后端语言,也能熟练处理Rust(系统开发)、Kotlin(Android开发)等相对冷门的语言。在SWE-bench Multilingual(多语言软件工程测试)中,其正确率达66.7%,较上一代提升12.9%,尤其在C++内存管理、Rust并发编程等“高难度领域”,代码通过率显著高于同类开源模型。

  • 工具调用能力强,复杂任务可闭环在τ²-Bench交互式工具调用评测中,GLM-4.7以87.4分刷新开源纪录,能自主完成“多工具协同”任务:例如输入“分析2025年全球AI融资数据并生成可视化图表”,模型会先调用搜索工具获取最新数据,再用Python的Matplotlib库生成折线图,最后通过PPT工具整理分析结论,整个过程无需用户手动切换工具,实现“需求输入-结果输出”的全闭环。

技术解密:Slime框架+三重思考机制,让AI“先想清楚再动手”

AMA活动中,智谱团队首次深度曝光GLM-4.7的技术内核——通过“后训练优化+自研框架+思考机制重构”,解决了开源模型“稳定性差、推理粗糙”的痛点:

  • 后训练精细化:在有限参数里压榨极致性能团队坦言,GLM-4.7的改进核心集中在SFT(监督微调)与RL(强化学习)阶段:采用“领域对齐数据集”优化,针对编程、推理等场景单独调整训练配方;同时建立“多源数据流水线”,从高质量论文、开源代码库、小说剧本中采集数据,经过去重、质量过滤、敏感词筛查等多轮清理,确保训练数据的精准性。这种“小参数高性价比”的思路,让GLM-4.7在消费级显卡上就能运行(支持8GB显存启动Air版本),同时保持接近30B参数量模型的逻辑能力。

  • Slime强化学习框架:开源生态的“效率利器”为解决大模型强化学习“效率低、复现难”的行业痛点,智谱自研并开源Slime框架。该框架专为大规模RL设计,支持PPO、DPO等多种对齐算法,名字寓意“灵活且适应性强”——开发者只需输入基础数据集与训练目标,即可快速复现GLM级别的对齐效果,无需从零搭建复杂的RL系统。团队表示,Slime框架的开源是“回馈生态”:智谱早期从开源社区获益良多,如今希望通过工具降低行业研发门槛,已有多家中小厂商基于Slime训练出适配垂直场景的定制化模型。

  • 三重思考机制:让AI告别“鲁莽操作”针对复杂任务中“推理混乱、易出错”的问题,GLM-4.7引入“交错思考+保留思考+轮级思考”的三重机制,大幅提升稳定性:

  • 交错思考(Interleaved Thinking):每次响应或工具调用前,模型会进行隐性推理,类似人类“做事前先规划”。例如开发“植物大战僵尸”时,会先拆解“角色生成-物理碰撞-界面渲染”等步骤,再逐模块写代码,减少逻辑漏洞。

  • 保留思考(Preserved Thinking):多轮对话中自动保留过往推理过程,复用已有结论。比如用户后续要求“给僵尸添加冰冻效果”,模型会直接调用之前定义的“僵尸类”结构,无需重新推导代码框架,降低长任务的推理成本。

  • 轮级思考(Turn-level Thinking):支持按“轮次”控制推理开关——简单任务(如“修改代码注释”)可关闭思考以提速,复杂任务(如“重构后端架构”)开启思考以保准确,实现“效率与质量的动态平衡”。

场景落地:从游戏开发到办公创作,性价比碾压海外模型

GLM-4.7的优势不仅在于“能跑分”,更在于“能落地”——在实际开发与办公场景中,其表现远超同类模型,且性价比极具竞争力:

  • 全栈开发能力强,复杂项目可交付在z.ai平台的“全栈开发模式”下,GLM-4.7能独立完成高交互项目:输入“基于提供的素材开发植物大战僵尸游戏”,模型15分钟内生成包含游戏音乐、角色动画、碰撞检测的完整代码,支持“种植植物-发射豌豆-抵御僵尸”等核心玩法,甚至加入“阳光收集”“商店购买”等细节功能,代码符合前端开发规范,可直接部署上线。

  • 办公创作质量高,审美接近商用级相比上一代“模板化痕迹重”的问题,GLM-4.7在内容生成的“美学表现”上大幅提升:生成PPT时,16:9比例适配率从52%跃升至91%,字体层级、配色方案更符合商务审美;设计运动鞋海报时,能自动调整光影效果、排版布局,成品接近专业设计师水平,较GLM-4.6的“单调排版”有明显进步。用户反馈显示,其生成的PPT、海报“无需微调即可直接使用”,大幅节省办公时间。

  • 价格亲民,性价比碾压海外竞品市场反馈中,GLM-4.7的“高性价比”成为核心亮点:其一年订阅费用仅相当于Codex(OpenAI编程模型)或Claude Code最高级计划一个月的价格,且支持“按次调用”(每百万tokens费用不足10元)。有海外开发者调侃:“用GLM-4.7一年的成本,够买Claude Code一个月,这简直是‘价格屠夫’。” 目前,估值40亿美元的AI公司Fireworks已在Day 0支持GLM-4.7,进一步扩大其海外影响力。

上市承诺:开源是核心基因,资本路径不影响技术初心

AMA中,开发者最关心的“上市后是否缩减开源投入”问题,智谱团队给出明确回应:“开源是智谱的核心基因,无论资本路径如何变化,上市后将持续开源。” 团队解释,智谱的成长离不开开源生态的滋养——早期通过开源模型积累大量开发者反馈,如今开源不仅是“回馈”,更是“保持技术领先的关键”:通过社区迭代,能快速发现模型漏洞、优化功能,同时建立开发者标准,避免“闭门造车”。

这一承诺被视为智谱在IPO前夕的“技术定心丸”。目前智谱已通过港交所上市聆讯,GLM-4.7的发布被业内解读为“展示技术肌肉”的重要举措——相比其他厂商“重营销轻技术”,智谱选择用“可落地、可开源”的模型实力打动资本市场,首席科学家唐杰更是在发布会上表示:“我们会为了AGI(通用人工智能)在明年做更多贡献。”

从“开源追随者”到“开源引领者”,GLM-4.7的突破不仅刷新了国产大模型的技术高度,更改变了全球开发者对“开源模型能力上限”的认知。其背后的Slime框架、三重思考机制,为行业提供了“低成本高效研发”的范本;而“上市后持续开源”的承诺,也让国产大模型在全球生态中赢得更多尊重。随着智谱IPO进程推进,GLM-4.7或许只是开始,未来更多“能思考、会落地”的国产模型,或将在全球AI竞争中占据更重要的位置。

© 版权声明

相关文章