Manus 深度评测:通用 Agent 天花板值不值 $20/月?国内还能用吗
一句话结论
如果你需要深度研究 / 复杂调研 / 数据分析报告——那种正常人要花 4–8 小时才能做完的活——Manus 在 2026 年是通用 Agent 里体感最好的选择之一。多 sub-agent 并行、自动模型路由、任务可以关掉浏览器让它在云端跑,交付物的引用密度和结构化程度都明显高于 ChatGPT Deep Research。
但是它不便宜、也不适合所有场景:中国大陆已被官方屏蔽访问、credit 烧得比标价快、Web App Builder 到今天仍不能用于生产、团队协作能力弱。想清楚这几点再决定要不要付 $20。
省钱建议:先用 Free 档跑 3–5 个真实任务评估 credit 消耗速度和交付质量。跑通后再决定要不要上 $20/$50/$200 档。Free 档就够看清 Manus 是不是你要的答案。
Manus 真正在解决的问题
社区讨论"为什么 Manus 火"经常聚焦在"多 Agent、字节挖来的团队、Meta 想收购"。但深一层看,Manus 是在解决通用 Agent 长期以来的三个卡点:
第一个卡点:单模型天花板。 ChatGPT / Claude 用一个模型端到端跑所有步骤——浏览、分析、写代码、写文档、总结。每个模型都有明显的短板:GPT-5 写代码不如 Claude Sonnet 4;Claude 长文档总结不如 Kimi K2;GPT-5 数据分析和图表输出不如自研专业化模型。Manus 用多个 sub-agent 并行 + 主 orchestrator 路由到最合适的模型,等于每一步都用最擅长的选手,输出质量自然更稳。
第二个卡点:交互式模型的疲劳感。 ChatGPT / Claude 是"一问一答",做 4 小时深度研究要盯着屏幕、追问、修改、继续。Manus 是**"提交任务 → 关掉浏览器 → 明天早上看结果"**这套异步工作流,跟传统数据分析师工作方式接近,反而更适合复杂任务。
第三个卡点:引用密度。 用 ChatGPT Deep Research 或 Perplexity 做研究报告,你会发现引用经常"看起来支撑观点、其实原文没这个意思"。这是单个 LLM 生成阶段幻觉的锅。Manus 的多 sub-agent 里有专门的引用检查子 Agent,跑完后再合成,引用错配率明显更低。这是它在 research 场景吸引付费用户的核心。
多 sub-agent 到底强在哪里
"Where most general-purpose AI products use one model end-to-end, Manus runs multiple specialized sub-agents in parallel: one handles web browsing, one handles data analysis, one handles code execution, one handles synthesis and writing."
主 orchestrator 拆解任务、分配到各专业子 Agent,并行执行后再由 synthesis 子 Agent 合成结果。这个架构的直接收益:
- 引用密度 x 2:browsing 子 Agent 负责获取、synthesis 子 Agent 负责组织,各司其职,不像单模型那样漏引或错引。
- 任务时长 / 2:并行执行让原本串行 8 小时的任务在云端 3 小时跑完。
- 成本更可控:每个子 Agent 只干自己那一段,短 context + 专门模型,token 效率更高。
按 Info-Tech Research 引用的 GAIA benchmark(General AI Assistants):
| 模型 | GAIA 准确率 |
|---|---|
| Manus AI | >65%(SOTA) |
| H2O.ai (h2oGPTe) | 65% |
| Google Langfun | 49% |
| Microsoft o1 | 38% |
| OpenAI GPT-4o | 32% |
| OpenAI GPT-4 + Plugins | 15-30% |
注:基准是 Manus 官方公布,需第三方验证;即便打八折,也仍然是这一档产品里的头部。
"开着任务下班"体感
这是最容易被文字低估、真上手就理解的差异。举个真实场景:
"调研欧洲前 10 大 EV 充电网络(覆盖率、价格、可靠性、充电速度),产出带引用的 Markdown 对比表。"
- 用 ChatGPT Deep Research:你要点"研究"、盯 15–30 分钟、追问 5 次、手动整理成表。全程要人在。
- 用 Manus:提交任务、关掉浏览器、去做别的。2–4 小时后邮件通知,收到一份带 20+ 来源引用的完整 Markdown 表。
这个体感差异在深度研究 / 竞品分析 / 市场调研 场景是决定性的。用一次就回不去了。
能力天花板:5 类场景不推荐用 Manus
诚实地说:Manus 有几个明确的弱项。
生产级 Web App:Web App Builder 演示很漂亮,但复杂场景经常翻车。Pick Right 评测 直白说"buggy enough that I wouldn't ship to production from it yet"。真要交付网站,Bolt.new / Lovable / v0 更稳。
团队协作:目前偏单人产品,Pro+ / Team 档的"团队工作空间"功能有限,没有 Notion 那种协作粒度。多人并行做研究要各买各的账号。
跨会话上下文:每次任务从零开始,没有持久 workspace。你要在项目 A 之上做项目 B,Manus 不会"记得"A。跨会话上下文用 Claude Projects / ChatGPT Custom GPT 更合适。
大陆访问:Butterfly Effect 2025 已官方屏蔽中国大陆访问 + 关闭中文社交账号。国内裸用不通,需要稳定海外网络。
成本极敏感:Free 档能试水,付费档 credit 烧得比标价暗示的快。每次任务一旦启动无法控预算——只能 cancel 或等它跑完。对预算敏感的场景(学生、独立开发者)应先充分评估。
价格与运行成本
Pick Right 评测 公开档位:
| 档位 | 价格 | 关键点 |
|---|---|---|
| Free | $0 | 每日有限 credits,够 1 个高强度任务/天 |
| Pro | $20/月 | 大多数付费用户落点,中等 credit + 多模型 |
| Plus | $50/月 | 更高 credit + 优先队列,10+ 任务/周 |
| Pro+/Team | 最高 $200/月 | 最大 credit + 团队空间(功能仍有限) |
credit 经济学:每个动作(浏览、代码运行、模型调用)都消耗 credits。
真实反馈来自 Pick Right 评测:
"Credits run out faster than the pricing page suggests. Heavy users routinely buy credit packs on top of subscriptions."
建议:不要按标价决定档位,用 Free 档跑 3–5 个真实任务测消耗速度。真跑一遍就知道你到底要 $20 / $50 还是 $200。
与同类怎么选
| 维度 | Manus | Devin | Genspark | ChatGPT Deep Research |
|---|---|---|---|---|
| 核心定位 | 通用 Agent | AI 程序员 | AI 搜索 + Agent | LLM Deep Research |
| 架构 | 多 sub-agent 并行 | 单 Agent + 沙盒 | 多模型 | 单模型 |
| 长任务 | ★★★★★ 小时级 | ★★★★★ | ★★★☆☆ | ★★★★☆ |
| 引用密度 | ★★★★★ | ★★★☆☆ | ★★★★☆ | ★★★☆☆ |
| App Builder | ⚠️ 有但 buggy | ❌ | ❌ | ❌ |
| 中文 / 大陆 | ⚠️ 屏蔽 | ⚠️ | ★★★★★ | ⚠️ |
| 价格 | $20-$200 | $500/月 | $24.99/月 | 随 ChatGPT Plus |
选 Manus 如果:重视 research / 数据分析的引用密度和结构化输出,能解决海外账号+网络。
别选 Manus 如果:国内裸用(去 Genspark / Yuanbao)、生产 App(去 Bolt / Lovable)、团队协作重(暂无满足产品)、预算 < $20(Free 档评估即可)。
AIHO 推荐结论
Manus 是 2026 年通用 Agent 里最能刷新体感天花板的产品,尤其是给做研究、咨询、竞品分析、市场洞察的人。多 sub-agent + 自动模型路由 + 云端异步执行——这几件事组合起来,让"AI 帮我做完深度调研"从概念变成了每周都可用的日常。
但它不是 ChatGPT 平替。日常 Q&A、写代码、日程管理、文档整理,用 ChatGPT / Claude / Genspark 更合适、更便宜、也更稳。Manus 的甜点区是"需要 4+ 小时深度产出的复杂任务",别拿它做"5 分钟就能搞定的小活",性价比就没了。