Gemini 2.5 Pro
Google Gemini 2.5 Pro 旗舰多模态模型,100 万 token 业界最长上下文,图像 / 音频 / 视频 / 代码原生混合推理,Vertex AI 企业级 SLA 集成,Flash 版本提供 1/16 价格兜底。
规格
- 厂商
- 发布日期
- 2025/3/25
- 类型
- multimodal
- 上下文窗口
- 1000K tokens
- 最大输出
- 66K tokens
- 定价
- Input $1.25/M · Output $10/M · 闪存 $0.075/M
- API 兼容
基准测试
✓ 优势
- •100 万 token 上下文,全网最长,可处理整本书/整个代码仓库
- •多模态原生支持(图片/视频/音频/代码)
- •Flash 版本极快极便宜,适合高吞吐场景
- •Google 生态集成(Vertex AI / AI Studio)
- •视频理解能力业界最强
⚠ 不足
- •国内无法直连,需要海外网络
- •编程实操中不如 Claude Sonnet 4 稳定
- •API 文档和生态不如 OpenAI/Anthropic 完善
- •长上下文下有'中间遗忘'现象
适用场景
概述
Gemini 2.5 Pro 是 Google 于 2025 年 3 月发布的旗舰模型,最大亮点是 100 万 token 的上下文窗口——全网最长。可以一次性处理整本书、整个代码仓库或数小时的视频。
核心能力
100 万 token 上下文
这是 Gemini 2.5 Pro 的杀手锏。100 万 token 约等于:
- 一本 75 万字的中文小说
- 一个 10 万行代码的中型项目
- 10 小时 1080p 视频
- 一次完整的学术会议所有论文
但要注意"中间遗忘"——超过 500K 后召回率明显下降,详见 Context Engineering。Google 自己的 Needle-in-Haystack 测试虽然全 100% 命中,但真实业务中的多 hop 推理在长上下文下仍然不稳。
多模态
原生支持图片、视频、音频输入。视频理解能力是所有大模型中最强的——可以精确识别视频中的动作、物体、场景、对话内容。
# 视频输入
content_part = {
"file_data": {
"mime_type": "video/mp4",
"file_uri": "gs://bucket/lecture.mp4",
}
}
# 1 小时视频约消耗 100K-200K token
Thinking 模式(自适应推理)
Gemini 2.5 系列内置 dynamic thinking——模型自动决定是否要"想一想"。也可以手动控制:
from google import genai
client = genai.Client(api_key="...")
resp = client.models.generate_content(
model="gemini-2.5-pro",
contents="证明费马小定理",
config={
"thinking_config": {"thinking_budget": 8000}, # 0 = 关闭
},
)
thinking_budget=0 禁用推理(变成快速模式),数值越大推理越深。
Flash 版本
Gemini 2.5 Flash 是 Pro 的轻量版:
- 速度:Pro 的 5-10 倍
- 价格:Input $0.075/M(Pro 的 6%)
- 能力:保留 Pro 约 85% 的能力
对于高吞吐场景(客服 bot、批量分类、内容审核),Flash 的性价比无敌。
API 调用示例
Python SDK(新版 google-genai)
from google import genai
client = genai.Client(api_key="AIza...")
resp = client.models.generate_content(
model="gemini-2.5-pro",
contents="Hello, summarize this PDF.",
config={
"temperature": 1.0,
"max_output_tokens": 8000,
"response_mime_type": "application/json", # 强制 JSON 输出
},
)
print(resp.text)
Context Caching(显式 API,与 OpenAI 自动 cache 不同)
# 1. 创建 cache
cache = client.caches.create(
model="gemini-2.5-pro",
config={
"contents": [{"role": "user", "parts": [{"text": LONG_DOCUMENT}]}],
"ttl": "3600s", # 1 小时
},
)
# 2. 用 cache 名引用
resp = client.models.generate_content(
model="gemini-2.5-pro",
contents="What are the key findings?",
config={"cached_content": cache.name},
)
# Input 价格 -75%,再加按小时存储费
显式 cache 适合少量超长文档反复问的场景(合同、财报)。注意 cache 不是免费——按存储时长计费 $4.50/M-token/hour。
关键参数
| 参数 | 推荐 | 说明 |
|---|---|---|
temperature | 1.0(默认) | 推理模型,不要改 |
top_p | 0.95(默认) | Gemini 默认就开了 nucleus sampling |
max_output_tokens | 显式设 | 否则默认 8192,长输出会截断 |
thinking_budget | 0 / 8000 / 32000 | 简单任务 0,复杂推理拉满 |
response_mime_type | application/json | 强制 JSON,配合 response_schema |
定价
| 项目 | Pro(≤200K input) | Pro(>200K input) | Flash |
|---|---|---|---|
| Input | $1.25/M | $2.50/M | $0.075/M |
| Output | $10/M | $15/M | $0.30/M |
| Cached Input | $0.31/M | $0.625/M | $0.01875/M |
| Cache 存储 | $4.50/M/hour | — | $1.00/M/hour |
重要:Pro 的价格在 200K input 处翻倍!很多人没注意到这点。如果你的 prompt 长期超过 200K,先做检索压缩再喂给模型比硬塞 600K 划算。
视频理解的真实场景
Gemini Pro 在视频上的护城河目前没人能赶上:
| 任务 | 价值 |
|---|---|
| 安防录像分析 | 找特定行为发生时刻 |
| 在线课程切片 | 自动出章节标题 / 摘要 / 字幕 |
| 电商商品视频 | 自动出产品标签 / 文案 |
| 会议录像 | 自动出会议纪要 / TODO |
| 故障复盘 | 看操作录屏定位用户卡点 |
调用价:1 分钟 1080p 视频约 250-500 input token,1 小时视频 ~30K token,远比想象中便宜。
国内使用
Google API 不对中国大陆开放,需要:
- 海外网络环境 + Google AI Studio API
- Google Cloud Vertex AI(企业级,要海外 GCP 账号)
- 通过 OpenRouter / 其他中转平台
- AWS Bedrock 暂不支持 Gemini(只有 Anthropic / Llama)
与其他模型怎么选
| 维度 | Gemini 2.5 Pro | Claude Sonnet 4 | GPT-5 |
|---|---|---|---|
| 上下文 | 1M(全网最长) | 200K | 400K |
| 编程 | ★★★★☆ | ★★★★★ | ★★★★☆ |
| 多模态 | ★★★★★(含视频) | ★★★☆☆(仅图片) | ★★★★☆ |
| 推理 | ★★★★☆ | ★★★★☆ | ★★★★★ |
| 价格 | $1.25/$10 | $3/$15 | $1.25/$10 |
| 工具调用稳定性 | ★★★★☆ | ★★★★★ | ★★★★★ |
| 国内可用 | ❌ | ❌ | ❌ |
建议:
- 需要处理超长内容或视频 → Gemini 2.5 Pro
- 主力编程 → Claude Sonnet 4
- 推理 / Agent → GPT-5 或 Sonnet 4
避坑清单
- 200K 价格断点:超过就翻倍。Prompt 设计时尽量切在 200K 以内。
thinking_budget默认开:意味着即使简单任务也可能多花 token。批量场景显式设 0。max_output_tokens不设会截断:默认 8192,长输出务必显式调高到 65536。response_mime_type=application/json不够:还要配response_schema才是强约束,否则模型可能输出"// 注释"破坏 JSON。- 国内中转质量参差:OpenRouter 是相对稳定的选择;自建中转要注意 Google 的速率限制。
- Cache 存储费:不用了记得
caches.delete(),否则按小时持续扣费。
延伸阅读
- 轻量版本:Gemini 2.5 Flash
- 上下文管理:Context Engineering
- 多模态基础:Embedding
- 工具调用:Function Calling