AutoGLM 深度评测:智谱通用 Agent 能打几分
一句话结论
如果你要做中文 App 自治——让 AI 操作微信、淘宝、美团、小红书完成真实任务——AutoGLM 在 2026 年是国内开源 GUI Agent 里覆盖度最高、最值得上手的一个。智谱清言 + 清华大学合作、32 个月研发、2025-12 开源 Open-AutoGLM(MIT 模型 + Apache 2.0 代码),AutoGLM-Phone-9B 单卡 4090 就能跑,覆盖 50+ 中文 App 示例。
但它不是万能的:9B 模型在复杂多步任务上推理不及 GPT-5 / Claude、iOS 支持空缺、生产级稳定性仍在演进。它的甜点区是"中文 App 自治 + 私有化部署 + 学术研究",不是"跨平台桌面自动化"——后者去 Anthropic Computer Use / Claude Desktop 更合适。
选型建议:学术研究 / 国内 App 自治 / 私有化部署 → AutoGLM 开源版直接上手(成本 = 0 + 一张 4090)。跨平台桌面自动化 / 英文场景 / 生产级稳定性 → 优先 Anthropic Computer Use 或 Claude Desktop。要云端通用 Agent(深度研究、长报告)→ 看 Manus。
AutoGLM 真正在解决的问题
社区讨论"为什么 AutoGLM 重要"经常停在"智谱开源、清华背书"。但深一层看,AutoGLM 是在解决中文 GUI Agent 长期以来的三个空白:
第一个空白:中文 App 的 GUI Agent。 Anthropic Computer Use、Claude Desktop 这类产品强在英文桌面场景,对中文 App(微信、美团、淘宝、小红书)的 UI 元素识别和操作链路支持很弱。AutoGLM 把 50+ 中文 App 的任务示例直接开源出来——微信发消息、淘宝下单、美团点外卖、小红书搜攻略——这是商业产品给不了的中文场景覆盖度。
第二个空白:可私有化的手机 Agent。 手机里装着通讯录、聊天记录、支付信息,把这些数据交给云端 Agent 跑,合规和隐私都是硬问题。AutoGLM 的 9B 模型 + 框架可以完全本地部署——模型、日志、权限全在你自己的机器上,数据零外泄。这对金融、政府、医疗等合规敏感场景是刚需,也是 Manus 这类云端闭源 Agent 给不了的。
第三个空白:学术研究的开放基准。 GUI Agent 是前沿研究方向,但商业产品(Manus、Claude Desktop)都是黑盒,研究者拿不到模型权重、看不到推理链路、复现不了 benchmark。AutoGLM 把模型权重、框架代码、Android 适配层、50+ App 任务示例、VAB-WebArena-Lite benchmark 全部释放出来——这是国内学术圈难得的开放姿态,也是它能进 arXiv 论文(2411.00820)的核心价值。
Agent 能力:手机 + 浏览器双线
AutoGLM 的 Agent 能力分两条线:手机 GUI Agent(Open-AutoGLM 开源版) 和 浏览器 Agent(智谱清言 Chrome 扩展)。
手机 GUI Agent
这是 AutoGLM 最核心、最区别于其他通用 Agent 的能力。工作机制是截屏 + UI 树双输入,规划与 grounding 分离:
- 规划阶段:模型看屏幕截图和 UI 树,决定下一步该点哪个元素、输什么文字
- Grounding 阶段:把"点登录按钮"这种高层指令映射到屏幕上具体坐标
- Safe Operations:敏感操作(登录、验证码、支付)触发人审接管,避免误操作
按 AutoGLM 项目主页 公布的数据,VAB-WebArena-Lite benchmark 首次成功率 55.2%,二次尝试 59.1%。注:这是学术 benchmark,需第三方验证,但即便打八折也仍是开源 GUI Agent 里的头部。
Remote ADB 是被低估的工程细节:初次 USB 配置后,通过 WiFi 控制设备,长跑实验摆脱数据线束缚。这对要做批量任务回归的工程团队是实质提升。
浏览器 Agent(Chrome 扩展)
Web 端通过智谱清言 Chrome 扩展(Chrome Web Store,10 万+ 用户)提供,能力偏"页面增强"而非"全程自治":
- 页面总结:打开长网页一键总结
- 划线助手:选中文字解释 / 翻译 / 续写
- 写作助手:在任意输入框唤起 AI 写作
- 高级检索:知网 / 知乎 / 小红书跨源检索合成
注意:Chrome 扩展的定位是"浏览器内的 AI 助手",不是"全程替你操作浏览器"的自治 Agent。要全程自治的浏览器 Agent,开源版的 WebArena benchmark 路线更接近,但稳定性仍弱于商业产品。Chrome 扩展评分中等(3.4/5),功能尚可但稳定性一般。
多模态屏幕理解
GUI Agent 的核心技术难点是屏幕理解——模型要"看懂"屏幕上有什么、能操作什么。AutoGLM 的方案是截屏 + UI 树双输入:
- 截屏(视觉):捕捉屏幕像素,理解布局、图标、图片按钮等无文字标签的元素
- UI 树(结构):通过 Android Accessibility Service 获取 UI 元素的层级、类型、文字,提供精确的可操作坐标
- 双输入融合:视觉负责"这是什么",结构负责"在哪能点"
这种双输入方案比纯视觉方案(只看截图)更准——UI 树提供了精确的可点击坐标,避免了纯视觉方案的"点歪了"问题。也比纯结构方案(只读 UI 树)更鲁棒——遇到 UI 树缺失或乱序的元素(图片按钮、Canvas 绘制),视觉能补上。
9B 模型的多模态能力上限:这是 AutoGLM 的核心权衡。9B 参数能在单卡 4090(24GB 显存)跑,门槛友好,但复杂多步任务的推理能力不及 GPT-5 / Claude Opus。社区实测:简单任务(打开 App、搜索、点按钮)成功率高,复杂多步任务(多 App 联动、长链路表单填写)成功率下降明显。要提升上限,可以叠加外部规划模型(用大模型做规划、9B 做 grounding)。
中文体验:AutoGLM 的护城河
中文体验是 AutoGLM 相对海外 GUI Agent 最深的护城河,体现在三层:
第一层:中文 App 覆盖度。 内置 50+ 中文 App 示例:微信、淘宝、美团、京东、支付宝、抖音、小红书、网易云、大众点评。这些 App 的 UI 元素、操作链路、常见任务模式都被预先适配过。海外产品面对这些 App 基本是从零开始,AutoGLM 是"开箱即跑"。
第二层:中文语境理解。 模型由智谱清言训练,中文语义理解原生——"在小红书搜罗马旅游攻略并总结景点"这种中文指令的意图解析、结果组织,比海外模型更贴中文用户习惯。
第三层:国内合规与数据自主。 完全本地部署时数据零外泄,符合国内数据合规要求。读取 IM、通讯录这类敏感操作仍需用户授权 + 符合当地法律,但至少数据不离开你的机器——这是云端 Agent 给不了的。
但中文体验也有边界:国行 App 的反爬监测和账号风控会偶尔拦截自动化操作,验证码、滑块验证会触发,必要时需要 human-in-the-loop 接管。这不是 AutoGLM 的锅,是国行 App 的反自动化机制——任何 GUI Agent 都会遇到。
价格:开源的经济学
AutoGLM 的价格结构对学术和工程团队极度友好:
| 形态 | 价格 | 关键点 |
|---|---|---|
| Open-AutoGLM(开源版) | $0 | MIT 模型 + Apache 2.0 代码,私有化部署 |
| 智谱清言 Chrome 扩展 | $0 | Chrome Web Store 装即用 |
| 智谱清言 App 内置版 | 商业服务 | 完整 GUI agent 能力,价格随订阅 |
真实成本 = 0(开源)+ GPU 推理。9B 模型一张 RTX 4090(24GB 显存)就能跑,这是开源 GUI Agent 里门槛最低的之一。
对比 Manus($20-$200/月、credit 烧得快、大陆屏蔽)和 Anthropic Computer Use(按 token 计费、需海外账号),AutoGLM 的开源模式对学术研究、PoC 验证、私有化部署的成本优势是数量级的。
但要算清"隐性成本":开源版需要你会 ADB + Python 部署、要处理 App 版本更新后的 UI 适配、要自己搭推理服务。这些工程成本对纯用户是门槛,对工程团队则可控。Open-AutoGLM 的能力 ≠ 智谱清言 App 内置版的能力——别拿开源版的体验去推断商业整合版,反之亦然。
适用场景
- ✅ GUI Agent 学术研究 / 工程团队——开放模型权重 + benchmark + 任务示例,可复现可改进
- ✅ 国内 App 自治——微信 / 美团 / 淘宝 / 小红书等 50+ 中文 App 任务
- ✅ 想本地跑 phone agent + 数据自主——9B 单卡可跑,数据零外泄
- ✅ 私有化部署 + 合规需求——金融 / 医疗 / 政府场景,代码可审计
- ✅ 教学 / Demo——门槛低、中文友好、开源可改
不推荐场景
跨平台桌面自动化:AutoGLM 主要面向 Android + Web,桌面 agent 能力空缺。要操作 macOS / Windows 桌面应用,去 Claude Desktop(MCP 生态)或 Anthropic Computer Use(跨平台桌面原生)。
iOS App 自治:iOS 支持完全空缺。iOS 的沙箱和 Accessibility 限制比 Android 严,需要走别的方案,AutoGLM 目前帮不上。
生产级稳定性需求:学术 / 开源版本仍在演进,App 版本更新后 UI 元素变化要重新适配,复杂多步任务成功率下降明显。要 production-grade 稳定性,目前所有开源 GUI Agent 都还差一截,得等生态成熟或上商业产品。
不懂 ADB / Python 部署的纯用户:Open-AutoGLM 的部署链路是 git clone → pip install → 下模型 → 配 ADB → 跑示例,对没有 Python / 命令行经验的人门槛偏高。纯用户建议直接用智谱清言 App 内置版,别碰开源版。
要云端通用 Agent(深度研究、长报告):AutoGLM 是 GUI Agent(操作界面),不是通用 Research Agent(深度调研、写报告)。要"开着任务下班、明早看带引用的研究报告"这种场景,去 Manus 或 Genspark。两者定位不同,别混用。
FAQ
Q:Open-AutoGLM 和智谱清言 App 里的 AutoGLM 什么关系? A:原 AutoGLM 是智谱 2024-10 发布的闭源整合产品(手机 + Web GUI agent),首次在真实手机环境跑通完整自治链路。Open-AutoGLM 是 2025-12 开源版本,把核心模型(AutoGLM-Phone-9B)+ 框架代码 + Android 适配层 + 50+ 中文 App 任务示例释放出来。整合版闭源、商业;开源版用于学术 / 私有化。两者能力不等价,别混用。
Q:AutoGLM 和 Manus 有什么区别? A:定位完全不同。AutoGLM 是 GUI Agent——操作手机 / 浏览器界面完成真实任务(点按钮、填表单、搜索)。Manus 是通用 Research Agent——云端异步完成深度调研、数据分析、写报告。一个操作界面、一个产出报告,详见 AutoGLM vs Manus 对比。
Q:9B 模型够用吗? A:简单任务够用,复杂多步任务上限明显。单卡 4090 能跑是门槛优势,但 9B 在推理深度上不及 GPT-5 / Claude。要提升上限可以叠加外部规划模型——大模型做规划、9B 做 grounding 的分工模式是社区常见做法。
Q:国内能直接用吗? A:能。开源版完全本地部署,不依赖外网。智谱清言 Chrome 扩展和 App 都是国内服务,直连无障碍。这是 AutoGLM 相对 Manus(大陆屏蔽)、Anthropic Computer Use(需海外账号)的天然优势。