跳到主内容
AIHO 2026 全新改版上线
TOOL · AGENT #03/04桌面 Agent
AutoGLM

AutoGLM

智谱清言出品 + 清华团队 GUI 自治智能体——Open-AutoGLM 开源 9B 手机模型 + Chrome 浏览器扩展

gui-agentmobile-agentbrowser-agentopensourcechinesezhipuchatglm
访问官网
能力
4
易用
4
性价比
5
中文
5
稳定
3
编辑结论 综合4.2/ 5

国内『AI 操作手机 / 浏览器』开源标杆——智谱 32 个月研发、清华学术背景、MIT 开源模型权重。学术研究 / 国内 App 自治 / 私有化部署首选。生产稳定性 + 跨平台桌面仍弱于 Anthropic Computer Use / Claude Desktop。

01 / 03深度解读

TL;DR

AutoGLM 是智谱清言 + 清华大学合作的 GUI 自治智能体研究项目(arXiv 2411.00820)。2025-12-08 开源 Open-AutoGLM:AutoGLM-Phone-9B 模型(MIT 协议,HuggingFace / ModelScope 可下载)+ Apache 2.0 框架代码 + Android 适配 + Remote ADB + 50+ 中文 App 示例。VAB-WebArena-Lite 55.2% / 59.1% 成功率,覆盖微信 / 淘宝 / 美团 / Gmail / Google Maps 等。Web 端通过智谱清言 Chrome 扩展(10 万+ 用户)提供页面总结 / 高级检索能力。

适合:研究 GUI agent 的学术 / 工程团队;国内 App 自治场景;要中文模型 + 私有化部署;想本地跑 phone agent 不依赖外网。不适合:跨平台桌面自动化(用 Anthropic Computer Use / Claude Desktop);纯英文 web 任务(成功率不如商业产品);要 production-grade 稳定性(学术 / 开源版本仍在演进)。

核心能力

  • AutoGLM-Phone-9B:MIT 协议开源模型,HuggingFace / ModelScope 可下载
  • Android 适配层:原生 Android API + Accessibility Service
  • Remote ADB:初次配置后通过 WiFi 控制设备,无需 USB
  • 多模态屏幕理解:截屏 + UI 树双输入,规划 + grounding 分离
  • 50+ 中文 App 任务示例:微信 / 淘宝 / 美团 / 京东 / 支付宝 / 抖音 / 小红书 / 大众点评等
  • 英文 App 覆盖:Gmail / Google Maps / X / Reddit / OneStopShop
  • Web 浏览器智能体:Chrome 扩展 + VAB-WebArena-Lite 55.2% / 59.1%
  • 页面总结 + 划线助手 + 写作助手 + 高级检索(知网 / 知乎 / 小红书)
  • Safe Operations:敏感操作(登录 / 验证码)确认后由人接管
  • Python API:几行代码就能跑通自动化任务
  • 私有化部署:模型 + 框架本地跑,数据 / 日志 / 权限完全自控

价格

  • Open-AutoGLM:$0;模型 MIT + 代码 Apache 2.0
  • Chrome 扩展:$0;Chrome Web Store 装即用
  • 整合产品(智谱清言 App):商业服务,价格随订阅

真实成本 = 0(开源)+ GPU 推理(9B 模型 RTX 4090 一张即可跑)

实测(开源版本 / Pixel 6a + Ubuntu 22.04)

亮点:

  • 32 个月研发的『手机 GUI agent』终于开源,是国内学术圈难得的开放姿态
  • 中文 App 覆盖度领先:微信 / 美团 / 淘宝跑通率高
  • 模型 9B 可在单卡 4090 + 24GB 显存跑,门槛友好
  • Remote ADB 让长跑实验摆脱 USB 线
  • 学术 benchmark 数据透明(55.2% / 59.1%)
  • safe-operation 设计对登录 / 支付环节做人审接管,避免误操作

踩坑:

  • App 版本更新后 UI 元素变化要重新适配
  • 9B 模型在复杂多步骤任务上推理不如商业大模型(GPT-5.4 / Claude Opus 4.6)
  • 主要面向 Android,iOS 支持空缺
  • 文档以 README + 论文为主,工程化最佳实践薄
  • 国行 App 隐私 / 反爬监测会偶尔拦截
  • Chrome 扩展 3.4 / 5 评分中等,功能尚可但稳定性一般
  • 整合版(智谱清言)和开源版差异要注意,别混用

上手(Open-AutoGLM)

git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM && pip install -r requirements.txt

# 下载 9B 模型
huggingface-cli download THUDM/AutoGLM-Phone-9B

# 配置 ADB(USB 一次)
adb tcpip 5555 && adb connect <device-ip>:5555

# 跑示例任务
python examples/run_phone_agent.py \
  --model THUDM/AutoGLM-Phone-9B \
  --task "在小红书搜索罗马旅游攻略并总结景点"

对比

维度AutoGLMClaude DesktopOpenClawAnthropic Computer Use
平台Android + WebmacOS / Windows + MCPmacOS/Linux/Win跨平台
开源✅ MIT 模型 + Apache 代码闭源✅ MIT
中文 App✅ 50+ 示例部分
Phone agent✅ 9B 模型
桌面 agent✅ MCP✅ Gateway✅ 原生
学术 benchmark✅ 公开部分
整合 IM✅ 20+ 平台
适合国内 App / 研究 / 私有化MCP 生态桌面IM 触发个人 agent跨平台桌面

避坑

  • App 版本敏感:UI 改动后效果下降,要 pin App 版本或重训样本
  • 9B 模型推理上限:复杂多步任务上不及 GPT-5.4 / Claude,可叠加外部规划模型
  • iOS 暂缺:需要 iOS agent 走别的方案
  • Remote ADB 安全:开放端口必须限内网 + 防火墙
  • 国行 App 反爬:账号风控 / 验证码会触发,必要时 human-in-the-loop
  • 学术 vs 整合版:开源版能力 ≠ 智谱清言 App 内置版能力,PoC 别混淆
  • 隐私 / 合规:本地部署是优势,但读取 IM / 通讯录仍要符合用户授权 + 当地法律
  • MIT 模型 + Apache 代码:商用务必看 LICENSE,企业合规审计要走流程

适合 / 不适合

  • ✅ GUI agent 学术研究 / 工程团队
  • ✅ 国内 App 自治(微信 / 美团 / 淘宝 / 小红书)
  • ✅ 想本地跑 phone agent + 数据自主
  • ✅ 私有化部署 + 合规需求
  • ❌ 跨平台桌面自动化(Claude Desktop / Anthropic Computer Use)
  • ❌ iOS App 自治
  • ❌ 要 production-grade 稳定性(仍在演进)
  • ❌ 不懂 ADB / Python 部署的纯用户

相关阅读

来源

  1. AutoGLM 项目主页(含 Open-AutoGLM 2025-12-08 发布说明 / benchmark 数据)https://xiao9905.github.io/AutoGLM
  2. 腾讯新闻 — 智谱开源 AutoGLM(32 个月研发 / MIT + Apache 2.0)https://news.qq.com/rain/a/20251209A05V1G00
  3. AutoGLM arXiv 论文 https://arxiv.org/abs/2411.00820
  4. Chrome Web Store — 智谱清言 ChatGLM & AutoGLM 工作学习 AI 助手 https://chromewebstore.google.com/detail/mnpdbmgpebfihcndnpgdaihnkmloclkd
02 / 03价格速查
计划价格限制国内支付备注
Open-AutoGLM$0
智谱清言 Chrome 扩展$0
智谱清言 App 内置Custom
03 / 03 常见问题
Open-AutoGLM 和原 AutoGLM 什么关系?

原 AutoGLM 是智谱 2024-10 发布的闭源整合产品(手机 + Web GUI agent),首次在真实手机环境跑通完整自治链路。Open-AutoGLM 是 2025-12 开源版本,把核心模型(AutoGLM-Phone-9B)+ 框架代码 + Android 适配层 + 50+ 中文 App 任务示例释放出来,方便开发者本地部署 + 二次开发。整合版闭源、商业;开源版用于学术 / 私有化。

支持哪些 App?

Open-AutoGLM 内置 50+ 中文 App 示例:微信 / 淘宝 / 美团 / 京东 / 支付宝 / 抖音 / 小红书 / 网易云 / 大众点评 + 英文 Gmail / Google Maps / X / Reddit 等。任何 Android App 理论可用,但效果取决于 UI 元素的可识别度,新版本 App 需要重新适配。

Web 端能力?

Web 端通过 Chrome 扩展(智谱清言:ChatGLM & AutoGLM 工作学习 AI 助手)提供——10 万+ 用户安装,含页面总结 / 划线助手 / 写作助手 / 高级检索(知网 / 知乎 / 小红书)。VAB-WebArena-Lite benchmark 55.2% 首次成功率,二次尝试 59.1%。

和 Anthropic Computer Use / Claude Desktop 怎么选?

AutoGLM 强在中文 App + 学术研究 + 开源权重 + 国内合规;Anthropic Computer Use 强在跨平台桌面 + 英文场景 + 模型推理;Claude Desktop 强在 MCP 生态 + 一键 .mcpb 安装。国内 App 自治 + 私有化 → AutoGLM;英文桌面 + 通用桌面操作 → Anthropic / Claude Desktop。