跳到主内容
AIHO 2026 全新改版上线
multimodalGoogle

Gemini 3 Pro

Google 2025 年 11 月发布的旗舰多模态模型,1M 上下文 + LMArena 登顶 + vibe coding 标杆,同步推出 agent 开发平台 Antigravity。

规格

厂商
Google
发布日期
2025/11/18
类型
multimodal
上下文窗口
1000K tokens
最大输出
66K tokens
定价
Input $2/M · Output $12/M(≤200K 上下文)
API 兼容
gemini, vertex-ai, openai

基准测试

1501 Elo
LMArena
91.9%
GPQA Diamond
37.5%
Humanity's Last Exam
76.2%
SWE-bench Verified
54.2%
Terminal-Bench 2.0
1487 Elo
WebDev Arena

✓ 优势

  • 1M token 上下文,原生多模态(文本/图片/音频/视频/代码)
  • 推理能力业界顶级,LMArena 1501 Elo 登顶
  • Vibe Coding 零样本生成交互式 Web UI 能力极强
  • 长程 agent 规划稳,Vending-Bench 2 模拟经营一整年不跑偏
  • 减少谄媚(sycophancy),事实准确率提升

⚠ 不足

  • 国内无官方 API,需走中转或 Vertex AI
  • 纯编程 SWE-bench 76.2% 略低于 Claude Opus 4.5
  • Deep Think 深度推理模式仅对 AI Ultra 订阅开放
  • 上下文超 200K 后 API 价格上浮

适用场景

多模态分析(视频/截图/手写稿理解)全项目代码分析与 vibe coding长程 agent 任务规划学习/科研复杂推理

概述

Gemini 3 Pro 是 Google 于 2025 年 11 月 18 日发布的最强模型,相比 Gemini 2.5 Pro 在推理、多模态和 agentic 能力上全面跃升。发布即在 LMArena 以 1501 Elo 登顶,被 Google 定位为「思维伙伴」——能用更少的提示理解深层意图。同步推出的 agent 开发平台 Google Antigravity 让 Gemini 3 Pro 直接驱动编辑器、终端和浏览器。

核心能力

顶级推理

GPQA Diamond(博士级科学推理)拿到 91.9%,远超 GPT-5 一代。Humanity's Last Exam 37.5%(无工具)。配套的 Deep Think 模式进一步把 GPQA 推到 93.8%、ARC-AGI-2 推到 45.1%,但仅对 Google AI Ultra 订阅者开放。

1M 多模态上下文

1M token 上下文 + 原生多模态,可同时理解文本、图片、音频、视频和代码。典型用法:

  • 把整段教学视频喂进去做专家级分析(Video-MMMU 87.6%)
  • 手写食谱照片转结构化菜谱
  • 学术论文一键生成交互式记忆卡片

Vibe Coding

零样本生成富交互 Web UI 是 Gemini 3 Pro 的招牌能力,WebDev Arena 拿到 1487 Elo。配合 Gemini CLI 或 Antigravity,从一句话需求到可运行前端的链路极短。关于 vibe coding 的方法论见 Vibe Coding

长程 Agent

在 Vending-Bench 2(模拟经营一家自动售货机生意一整年)上登顶,证明它能维持长周期目标不漂移。Terminal-Bench 2.0 拿到 54.2%,终端操作能力强。

API 调用示例

from google import genai

client = genai.Client(api_key="...")
resp = client.models.generate_content(
    model="gemini-3-pro",
    contents="分析这段代码的性能瓶颈并给出优化方案",
    config={"thinking_config": {"thinking_level": "high"}},
)
print(resp.text)

也兼容 OpenAI 格式端点,方便从 GPT-5 平滑迁移。

定价

项目价格(≤200K 上下文)
Input$2 / 百万 token
Output$12 / 百万 token

超过 200K 上下文的请求价格上浮,长文档场景要算账。对比 Gemini 2.5 Pro 的 $1.25/$10,3 Pro 贵一档但能力提升明显。

与同档模型怎么选

维度Gemini 3 ProClaude Opus 4.5GPT-5
纯编程(SWE-bench)76.2%SOTA(更高)68.0%
多模态原生(图+音+视频)仅图片图+音+视频
上下文1M200K400K
推理(GPQA)91.9%62.5%
国内可用

建议:要多模态 + 超长上下文 + vibe coding 选 Gemini 3 Pro;要最强纯编程 agent 选 Claude Opus 4.5

避坑清单

  • 国内无直连:需 Vertex AI 或中转,注意合规。
  • 200K 是价格分界:超过后 input/output 双双上浮,长上下文任务先估成本。
  • Deep Think 要 Ultra:普通 API 拿不到最强推理档,别按 Deep Think 的 benchmark 预期普通调用。
  • thinking_level 别默认拉满:high 档贵且慢,日常任务用默认即可。

延伸阅读