跳到主内容
AIHO 2026 全新改版上线
AutoGLM智谱AIAI Agent深度评测

AutoGLM 深度评测:智谱通用 Agent 能打几分

AIHO 编辑部 · 2026-07-04

一句话结论

如果你要做中文 App 自治——让 AI 操作微信、淘宝、美团、小红书完成真实任务——AutoGLM 在 2026 年是国内开源 GUI Agent 里覆盖度最高、最值得上手的一个。智谱清言 + 清华大学合作、32 个月研发、2025-12 开源 Open-AutoGLM(MIT 模型 + Apache 2.0 代码),AutoGLM-Phone-9B 单卡 4090 就能跑,覆盖 50+ 中文 App 示例。

但它不是万能的:9B 模型在复杂多步任务上推理不及 GPT-5 / Claude、iOS 支持空缺、生产级稳定性仍在演进。它的甜点区是"中文 App 自治 + 私有化部署 + 学术研究",不是"跨平台桌面自动化"——后者去 Anthropic Computer Use / Claude Desktop 更合适。

选型建议:学术研究 / 国内 App 自治 / 私有化部署 → AutoGLM 开源版直接上手(成本 = 0 + 一张 4090)。跨平台桌面自动化 / 英文场景 / 生产级稳定性 → 优先 Anthropic Computer Use 或 Claude Desktop。要云端通用 Agent(深度研究、长报告)→ 看 Manus

AutoGLM 真正在解决的问题

社区讨论"为什么 AutoGLM 重要"经常停在"智谱开源、清华背书"。但深一层看,AutoGLM 是在解决中文 GUI Agent 长期以来的三个空白

第一个空白:中文 App 的 GUI Agent。 Anthropic Computer Use、Claude Desktop 这类产品强在英文桌面场景,对中文 App(微信、美团、淘宝、小红书)的 UI 元素识别和操作链路支持很弱。AutoGLM 把 50+ 中文 App 的任务示例直接开源出来——微信发消息、淘宝下单、美团点外卖、小红书搜攻略——这是商业产品给不了的中文场景覆盖度。

第二个空白:可私有化的手机 Agent。 手机里装着通讯录、聊天记录、支付信息,把这些数据交给云端 Agent 跑,合规和隐私都是硬问题。AutoGLM 的 9B 模型 + 框架可以完全本地部署——模型、日志、权限全在你自己的机器上,数据零外泄。这对金融、政府、医疗等合规敏感场景是刚需,也是 Manus 这类云端闭源 Agent 给不了的。

第三个空白:学术研究的开放基准。 GUI Agent 是前沿研究方向,但商业产品(Manus、Claude Desktop)都是黑盒,研究者拿不到模型权重、看不到推理链路、复现不了 benchmark。AutoGLM 把模型权重、框架代码、Android 适配层、50+ App 任务示例、VAB-WebArena-Lite benchmark 全部释放出来——这是国内学术圈难得的开放姿态,也是它能进 arXiv 论文(2411.00820)的核心价值。

Agent 能力:手机 + 浏览器双线

AutoGLM 的 Agent 能力分两条线:手机 GUI Agent(Open-AutoGLM 开源版)浏览器 Agent(智谱清言 Chrome 扩展)

手机 GUI Agent

这是 AutoGLM 最核心、最区别于其他通用 Agent 的能力。工作机制是截屏 + UI 树双输入,规划与 grounding 分离

  • 规划阶段:模型看屏幕截图和 UI 树,决定下一步该点哪个元素、输什么文字
  • Grounding 阶段:把"点登录按钮"这种高层指令映射到屏幕上具体坐标
  • Safe Operations:敏感操作(登录、验证码、支付)触发人审接管,避免误操作

AutoGLM 项目主页 公布的数据,VAB-WebArena-Lite benchmark 首次成功率 55.2%,二次尝试 59.1%。注:这是学术 benchmark,需第三方验证,但即便打八折也仍是开源 GUI Agent 里的头部。

Remote ADB 是被低估的工程细节:初次 USB 配置后,通过 WiFi 控制设备,长跑实验摆脱数据线束缚。这对要做批量任务回归的工程团队是实质提升。

浏览器 Agent(Chrome 扩展)

Web 端通过智谱清言 Chrome 扩展(Chrome Web Store,10 万+ 用户)提供,能力偏"页面增强"而非"全程自治":

  • 页面总结:打开长网页一键总结
  • 划线助手:选中文字解释 / 翻译 / 续写
  • 写作助手:在任意输入框唤起 AI 写作
  • 高级检索:知网 / 知乎 / 小红书跨源检索合成

注意:Chrome 扩展的定位是"浏览器内的 AI 助手",不是"全程替你操作浏览器"的自治 Agent。要全程自治的浏览器 Agent,开源版的 WebArena benchmark 路线更接近,但稳定性仍弱于商业产品。Chrome 扩展评分中等(3.4/5),功能尚可但稳定性一般。

多模态屏幕理解

GUI Agent 的核心技术难点是屏幕理解——模型要"看懂"屏幕上有什么、能操作什么。AutoGLM 的方案是截屏 + UI 树双输入

  • 截屏(视觉):捕捉屏幕像素,理解布局、图标、图片按钮等无文字标签的元素
  • UI 树(结构):通过 Android Accessibility Service 获取 UI 元素的层级、类型、文字,提供精确的可操作坐标
  • 双输入融合:视觉负责"这是什么",结构负责"在哪能点"

这种双输入方案比纯视觉方案(只看截图)更准——UI 树提供了精确的可点击坐标,避免了纯视觉方案的"点歪了"问题。也比纯结构方案(只读 UI 树)更鲁棒——遇到 UI 树缺失或乱序的元素(图片按钮、Canvas 绘制),视觉能补上。

9B 模型的多模态能力上限:这是 AutoGLM 的核心权衡。9B 参数能在单卡 4090(24GB 显存)跑,门槛友好,但复杂多步任务的推理能力不及 GPT-5 / Claude Opus。社区实测:简单任务(打开 App、搜索、点按钮)成功率高,复杂多步任务(多 App 联动、长链路表单填写)成功率下降明显。要提升上限,可以叠加外部规划模型(用大模型做规划、9B 做 grounding)。

中文体验:AutoGLM 的护城河

中文体验是 AutoGLM 相对海外 GUI Agent 最深的护城河,体现在三层:

第一层:中文 App 覆盖度。 内置 50+ 中文 App 示例:微信、淘宝、美团、京东、支付宝、抖音、小红书、网易云、大众点评。这些 App 的 UI 元素、操作链路、常见任务模式都被预先适配过。海外产品面对这些 App 基本是从零开始,AutoGLM 是"开箱即跑"。

第二层:中文语境理解。 模型由智谱清言训练,中文语义理解原生——"在小红书搜罗马旅游攻略并总结景点"这种中文指令的意图解析、结果组织,比海外模型更贴中文用户习惯。

第三层:国内合规与数据自主。 完全本地部署时数据零外泄,符合国内数据合规要求。读取 IM、通讯录这类敏感操作仍需用户授权 + 符合当地法律,但至少数据不离开你的机器——这是云端 Agent 给不了的。

但中文体验也有边界:国行 App 的反爬监测和账号风控会偶尔拦截自动化操作,验证码、滑块验证会触发,必要时需要 human-in-the-loop 接管。这不是 AutoGLM 的锅,是国行 App 的反自动化机制——任何 GUI Agent 都会遇到。

价格:开源的经济学

AutoGLM 的价格结构对学术和工程团队极度友好:

形态价格关键点
Open-AutoGLM(开源版)$0MIT 模型 + Apache 2.0 代码,私有化部署
智谱清言 Chrome 扩展$0Chrome Web Store 装即用
智谱清言 App 内置版商业服务完整 GUI agent 能力,价格随订阅

真实成本 = 0(开源)+ GPU 推理。9B 模型一张 RTX 4090(24GB 显存)就能跑,这是开源 GUI Agent 里门槛最低的之一。

对比 Manus($20-$200/月、credit 烧得快、大陆屏蔽)和 Anthropic Computer Use(按 token 计费、需海外账号),AutoGLM 的开源模式对学术研究、PoC 验证、私有化部署的成本优势是数量级的。

但要算清"隐性成本":开源版需要你会 ADB + Python 部署、要处理 App 版本更新后的 UI 适配、要自己搭推理服务。这些工程成本对纯用户是门槛,对工程团队则可控。Open-AutoGLM 的能力 ≠ 智谱清言 App 内置版的能力——别拿开源版的体验去推断商业整合版,反之亦然。

适用场景

  • GUI Agent 学术研究 / 工程团队——开放模型权重 + benchmark + 任务示例,可复现可改进
  • 国内 App 自治——微信 / 美团 / 淘宝 / 小红书等 50+ 中文 App 任务
  • 想本地跑 phone agent + 数据自主——9B 单卡可跑,数据零外泄
  • 私有化部署 + 合规需求——金融 / 医疗 / 政府场景,代码可审计
  • 教学 / Demo——门槛低、中文友好、开源可改

不推荐场景

跨平台桌面自动化:AutoGLM 主要面向 Android + Web,桌面 agent 能力空缺。要操作 macOS / Windows 桌面应用,去 Claude Desktop(MCP 生态)或 Anthropic Computer Use(跨平台桌面原生)。

iOS App 自治:iOS 支持完全空缺。iOS 的沙箱和 Accessibility 限制比 Android 严,需要走别的方案,AutoGLM 目前帮不上。

生产级稳定性需求:学术 / 开源版本仍在演进,App 版本更新后 UI 元素变化要重新适配,复杂多步任务成功率下降明显。要 production-grade 稳定性,目前所有开源 GUI Agent 都还差一截,得等生态成熟或上商业产品。

不懂 ADB / Python 部署的纯用户:Open-AutoGLM 的部署链路是 git clone → pip install → 下模型 → 配 ADB → 跑示例,对没有 Python / 命令行经验的人门槛偏高。纯用户建议直接用智谱清言 App 内置版,别碰开源版。

要云端通用 Agent(深度研究、长报告):AutoGLM 是 GUI Agent(操作界面),不是通用 Research Agent(深度调研、写报告)。要"开着任务下班、明早看带引用的研究报告"这种场景,去 ManusGenspark。两者定位不同,别混用。

FAQ

Q:Open-AutoGLM 和智谱清言 App 里的 AutoGLM 什么关系? A:原 AutoGLM 是智谱 2024-10 发布的闭源整合产品(手机 + Web GUI agent),首次在真实手机环境跑通完整自治链路。Open-AutoGLM 是 2025-12 开源版本,把核心模型(AutoGLM-Phone-9B)+ 框架代码 + Android 适配层 + 50+ 中文 App 任务示例释放出来。整合版闭源、商业;开源版用于学术 / 私有化。两者能力不等价,别混用。

Q:AutoGLM 和 Manus 有什么区别? A:定位完全不同。AutoGLM 是 GUI Agent——操作手机 / 浏览器界面完成真实任务(点按钮、填表单、搜索)。Manus 是通用 Research Agent——云端异步完成深度调研、数据分析、写报告。一个操作界面、一个产出报告,详见 AutoGLM vs Manus 对比

Q:9B 模型够用吗? A:简单任务够用,复杂多步任务上限明显。单卡 4090 能跑是门槛优势,但 9B 在推理深度上不及 GPT-5 / Claude。要提升上限可以叠加外部规划模型——大模型做规划、9B 做 grounding 的分工模式是社区常见做法。

Q:国内能直接用吗? A:能。开源版完全本地部署,不依赖外网。智谱清言 Chrome 扩展和 App 都是国内服务,直连无障碍。这是 AutoGLM 相对 Manus(大陆屏蔽)、Anthropic Computer Use(需海外账号)的天然优势。

相关阅读