Gemini 3 Pro
Google 2025 年 11 月发布的旗舰多模态模型,1M 上下文 + LMArena 登顶 + vibe coding 标杆,同步推出 agent 开发平台 Antigravity。
规格
- 厂商
- 发布日期
- 2025/11/18
- 类型
- multimodal
- 上下文窗口
- 1000K tokens
- 最大输出
- 66K tokens
- 定价
- Input $2/M · Output $12/M(≤200K 上下文)
- API 兼容
- gemini, vertex-ai, openai
基准测试
✓ 优势
- •1M token 上下文,原生多模态(文本/图片/音频/视频/代码)
- •推理能力业界顶级,LMArena 1501 Elo 登顶
- •Vibe Coding 零样本生成交互式 Web UI 能力极强
- •长程 agent 规划稳,Vending-Bench 2 模拟经营一整年不跑偏
- •减少谄媚(sycophancy),事实准确率提升
⚠ 不足
- •国内无官方 API,需走中转或 Vertex AI
- •纯编程 SWE-bench 76.2% 略低于 Claude Opus 4.5
- •Deep Think 深度推理模式仅对 AI Ultra 订阅开放
- •上下文超 200K 后 API 价格上浮
适用场景
概述
Gemini 3 Pro 是 Google 于 2025 年 11 月 18 日发布的最强模型,相比 Gemini 2.5 Pro 在推理、多模态和 agentic 能力上全面跃升。发布即在 LMArena 以 1501 Elo 登顶,被 Google 定位为「思维伙伴」——能用更少的提示理解深层意图。同步推出的 agent 开发平台 Google Antigravity 让 Gemini 3 Pro 直接驱动编辑器、终端和浏览器。
核心能力
顶级推理
GPQA Diamond(博士级科学推理)拿到 91.9%,远超 GPT-5 一代。Humanity's Last Exam 37.5%(无工具)。配套的 Deep Think 模式进一步把 GPQA 推到 93.8%、ARC-AGI-2 推到 45.1%,但仅对 Google AI Ultra 订阅者开放。
1M 多模态上下文
1M token 上下文 + 原生多模态,可同时理解文本、图片、音频、视频和代码。典型用法:
- 把整段教学视频喂进去做专家级分析(Video-MMMU 87.6%)
- 手写食谱照片转结构化菜谱
- 学术论文一键生成交互式记忆卡片
Vibe Coding
零样本生成富交互 Web UI 是 Gemini 3 Pro 的招牌能力,WebDev Arena 拿到 1487 Elo。配合 Gemini CLI 或 Antigravity,从一句话需求到可运行前端的链路极短。关于 vibe coding 的方法论见 Vibe Coding。
长程 Agent
在 Vending-Bench 2(模拟经营一家自动售货机生意一整年)上登顶,证明它能维持长周期目标不漂移。Terminal-Bench 2.0 拿到 54.2%,终端操作能力强。
API 调用示例
from google import genai
client = genai.Client(api_key="...")
resp = client.models.generate_content(
model="gemini-3-pro",
contents="分析这段代码的性能瓶颈并给出优化方案",
config={"thinking_config": {"thinking_level": "high"}},
)
print(resp.text)
也兼容 OpenAI 格式端点,方便从 GPT-5 平滑迁移。
定价
| 项目 | 价格(≤200K 上下文) |
|---|---|
| Input | $2 / 百万 token |
| Output | $12 / 百万 token |
超过 200K 上下文的请求价格上浮,长文档场景要算账。对比 Gemini 2.5 Pro 的 $1.25/$10,3 Pro 贵一档但能力提升明显。
与同档模型怎么选
| 维度 | Gemini 3 Pro | Claude Opus 4.5 | GPT-5 |
|---|---|---|---|
| 纯编程(SWE-bench) | 76.2% | SOTA(更高) | 68.0% |
| 多模态 | 原生(图+音+视频) | 仅图片 | 图+音+视频 |
| 上下文 | 1M | 200K | 400K |
| 推理(GPQA) | 91.9% | 强 | 62.5% |
| 国内可用 | ❌ | ❌ | ❌ |
建议:要多模态 + 超长上下文 + vibe coding 选 Gemini 3 Pro;要最强纯编程 agent 选 Claude Opus 4.5。
避坑清单
- 国内无直连:需 Vertex AI 或中转,注意合规。
- 200K 是价格分界:超过后 input/output 双双上浮,长上下文任务先估成本。
- Deep Think 要 Ultra:普通 API 拿不到最强推理档,别按 Deep Think 的 benchmark 预期普通调用。
- thinking_level 别默认拉满:high 档贵且慢,日常任务用默认即可。
延伸阅读
- 对比同档:Claude Opus 4.5 / GPT-5 / Gemini 2.5 Pro
- 长上下文:Context Engineering
- 配套工具:Gemini CLI