
AutoGLM
智谱清言出品 + 清华团队 GUI 自治智能体——Open-AutoGLM 开源 9B 手机模型 + Chrome 浏览器扩展
国内『AI 操作手机 / 浏览器』开源标杆——智谱 32 个月研发、清华学术背景、MIT 开源模型权重。学术研究 / 国内 App 自治 / 私有化部署首选。生产稳定性 + 跨平台桌面仍弱于 Anthropic Computer Use / Claude Desktop。
TL;DR
AutoGLM 是智谱清言 + 清华大学合作的 GUI 自治智能体研究项目(arXiv 2411.00820)。2025-12-08 开源 Open-AutoGLM:AutoGLM-Phone-9B 模型(MIT 协议,HuggingFace / ModelScope 可下载)+ Apache 2.0 框架代码 + Android 适配 + Remote ADB + 50+ 中文 App 示例。VAB-WebArena-Lite 55.2% / 59.1% 成功率,覆盖微信 / 淘宝 / 美团 / Gmail / Google Maps 等。Web 端通过智谱清言 Chrome 扩展(10 万+ 用户)提供页面总结 / 高级检索能力。
适合:研究 GUI agent 的学术 / 工程团队;国内 App 自治场景;要中文模型 + 私有化部署;想本地跑 phone agent 不依赖外网。不适合:跨平台桌面自动化(用 Anthropic Computer Use / Claude Desktop);纯英文 web 任务(成功率不如商业产品);要 production-grade 稳定性(学术 / 开源版本仍在演进)。
核心能力
- AutoGLM-Phone-9B:MIT 协议开源模型,HuggingFace / ModelScope 可下载
- Android 适配层:原生 Android API + Accessibility Service
- Remote ADB:初次配置后通过 WiFi 控制设备,无需 USB
- 多模态屏幕理解:截屏 + UI 树双输入,规划 + grounding 分离
- 50+ 中文 App 任务示例:微信 / 淘宝 / 美团 / 京东 / 支付宝 / 抖音 / 小红书 / 大众点评等
- 英文 App 覆盖:Gmail / Google Maps / X / Reddit / OneStopShop
- Web 浏览器智能体:Chrome 扩展 + VAB-WebArena-Lite 55.2% / 59.1%
- 页面总结 + 划线助手 + 写作助手 + 高级检索(知网 / 知乎 / 小红书)
- Safe Operations:敏感操作(登录 / 验证码)确认后由人接管
- Python API:几行代码就能跑通自动化任务
- 私有化部署:模型 + 框架本地跑,数据 / 日志 / 权限完全自控
价格
- Open-AutoGLM:$0;模型 MIT + 代码 Apache 2.0
- Chrome 扩展:$0;Chrome Web Store 装即用
- 整合产品(智谱清言 App):商业服务,价格随订阅
真实成本 = 0(开源)+ GPU 推理(9B 模型 RTX 4090 一张即可跑)
实测(开源版本 / Pixel 6a + Ubuntu 22.04)
亮点:
- 32 个月研发的『手机 GUI agent』终于开源,是国内学术圈难得的开放姿态
- 中文 App 覆盖度领先:微信 / 美团 / 淘宝跑通率高
- 模型 9B 可在单卡 4090 + 24GB 显存跑,门槛友好
- Remote ADB 让长跑实验摆脱 USB 线
- 学术 benchmark 数据透明(55.2% / 59.1%)
- safe-operation 设计对登录 / 支付环节做人审接管,避免误操作
踩坑:
- App 版本更新后 UI 元素变化要重新适配
- 9B 模型在复杂多步骤任务上推理不如商业大模型(GPT-5.4 / Claude Opus 4.6)
- 主要面向 Android,iOS 支持空缺
- 文档以 README + 论文为主,工程化最佳实践薄
- 国行 App 隐私 / 反爬监测会偶尔拦截
- Chrome 扩展 3.4 / 5 评分中等,功能尚可但稳定性一般
- 整合版(智谱清言)和开源版差异要注意,别混用
上手(Open-AutoGLM)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM && pip install -r requirements.txt
# 下载 9B 模型
huggingface-cli download THUDM/AutoGLM-Phone-9B
# 配置 ADB(USB 一次)
adb tcpip 5555 && adb connect <device-ip>:5555
# 跑示例任务
python examples/run_phone_agent.py \
--model THUDM/AutoGLM-Phone-9B \
--task "在小红书搜索罗马旅游攻略并总结景点"
对比
| 维度 | AutoGLM | Claude Desktop | OpenClaw | Anthropic Computer Use |
|---|---|---|---|---|
| 平台 | Android + Web | macOS / Windows + MCP | macOS/Linux/Win | 跨平台 |
| 开源 | ✅ MIT 模型 + Apache 代码 | 闭源 | ✅ MIT | ❌ |
| 中文 App | ✅ 50+ 示例 | – | 部分 | 弱 |
| Phone agent | ✅ 9B 模型 | ❌ | ❌ | ❌ |
| 桌面 agent | ❌ | ✅ MCP | ✅ Gateway | ✅ 原生 |
| 学术 benchmark | ✅ 公开 | – | – | 部分 |
| 整合 IM | – | – | ✅ 20+ 平台 | – |
| 适合 | 国内 App / 研究 / 私有化 | MCP 生态桌面 | IM 触发个人 agent | 跨平台桌面 |
避坑
- App 版本敏感:UI 改动后效果下降,要 pin App 版本或重训样本
- 9B 模型推理上限:复杂多步任务上不及 GPT-5.4 / Claude,可叠加外部规划模型
- iOS 暂缺:需要 iOS agent 走别的方案
- Remote ADB 安全:开放端口必须限内网 + 防火墙
- 国行 App 反爬:账号风控 / 验证码会触发,必要时 human-in-the-loop
- 学术 vs 整合版:开源版能力 ≠ 智谱清言 App 内置版能力,PoC 别混淆
- 隐私 / 合规:本地部署是优势,但读取 IM / 通讯录仍要符合用户授权 + 当地法律
- MIT 模型 + Apache 代码:商用务必看 LICENSE,企业合规审计要走流程
适合 / 不适合
- ✅ GUI agent 学术研究 / 工程团队
- ✅ 国内 App 自治(微信 / 美团 / 淘宝 / 小红书)
- ✅ 想本地跑 phone agent + 数据自主
- ✅ 私有化部署 + 合规需求
- ❌ 跨平台桌面自动化(Claude Desktop / Anthropic Computer Use)
- ❌ iOS App 自治
- ❌ 要 production-grade 稳定性(仍在演进)
- ❌ 不懂 ADB / Python 部署的纯用户
相关阅读
来源
- AutoGLM 项目主页(含 Open-AutoGLM 2025-12-08 发布说明 / benchmark 数据)https://xiao9905.github.io/AutoGLM
- 腾讯新闻 — 智谱开源 AutoGLM(32 个月研发 / MIT + Apache 2.0)https://news.qq.com/rain/a/20251209A05V1G00
- AutoGLM arXiv 论文 https://arxiv.org/abs/2411.00820
- Chrome Web Store — 智谱清言 ChatGLM & AutoGLM 工作学习 AI 助手 https://chromewebstore.google.com/detail/mnpdbmgpebfihcndnpgdaihnkmloclkd
| 计划 | 价格 | 限制 | 国内支付 | 备注 |
|---|---|---|---|---|
| Open-AutoGLM | $0 | — | — | |
| 智谱清言 Chrome 扩展 | $0 | — | — | |
| 智谱清言 App 内置 | Custom | — | — |
Open-AutoGLM 和原 AutoGLM 什么关系?
原 AutoGLM 是智谱 2024-10 发布的闭源整合产品(手机 + Web GUI agent),首次在真实手机环境跑通完整自治链路。Open-AutoGLM 是 2025-12 开源版本,把核心模型(AutoGLM-Phone-9B)+ 框架代码 + Android 适配层 + 50+ 中文 App 任务示例释放出来,方便开发者本地部署 + 二次开发。整合版闭源、商业;开源版用于学术 / 私有化。
支持哪些 App?
Open-AutoGLM 内置 50+ 中文 App 示例:微信 / 淘宝 / 美团 / 京东 / 支付宝 / 抖音 / 小红书 / 网易云 / 大众点评 + 英文 Gmail / Google Maps / X / Reddit 等。任何 Android App 理论可用,但效果取决于 UI 元素的可识别度,新版本 App 需要重新适配。
Web 端能力?
Web 端通过 Chrome 扩展(智谱清言:ChatGLM & AutoGLM 工作学习 AI 助手)提供——10 万+ 用户安装,含页面总结 / 划线助手 / 写作助手 / 高级检索(知网 / 知乎 / 小红书)。VAB-WebArena-Lite benchmark 55.2% 首次成功率,二次尝试 59.1%。
和 Anthropic Computer Use / Claude Desktop 怎么选?
AutoGLM 强在中文 App + 学术研究 + 开源权重 + 国内合规;Anthropic Computer Use 强在跨平台桌面 + 英文场景 + 模型推理;Claude Desktop 强在 MCP 生态 + 一键 .mcpb 安装。国内 App 自治 + 私有化 → AutoGLM;英文桌面 + 通用桌面操作 → Anthropic / Claude Desktop。