Name: Gemini 2.5 Pro
Brand: Google

概述

Gemini 2.5 Pro 是 Google 于 2025 年 3 月发布的旗舰模型，最大亮点是 100 万 token 的上下文窗口——全网最长。可以一次性处理整本书、整个代码仓库或数小时的视频。

核心能力

100 万 token 上下文

这是 Gemini 2.5 Pro 的杀手锏。100 万 token 约等于：

一本 75 万字的中文小说
一个 10 万行代码的中型项目
10 小时 1080p 视频
一次完整的学术会议所有论文

但要注意"中间遗忘"——超过 500K 后召回率明显下降，详见 Context Engineering。Google 自己的 Needle-in-Haystack 测试虽然全 100% 命中，但真实业务中的多 hop 推理在长上下文下仍然不稳。

多模态

原生支持图片、视频、音频输入。视频理解能力是所有大模型中最强的——可以精确识别视频中的动作、物体、场景、对话内容。

# 视频输入
content_part = {
    "file_data": {
        "mime_type": "video/mp4",
        "file_uri": "gs://bucket/lecture.mp4",
    }
}
# 1 小时视频约消耗 100K-200K token

Thinking 模式（自适应推理）

Gemini 2.5 系列内置 dynamic thinking——模型自动决定是否要"想一想"。也可以手动控制：

from google import genai

client = genai.Client(api_key="...")

resp = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="证明费马小定理",
    config={
        "thinking_config": {"thinking_budget": 8000},  # 0 = 关闭
    },
)

thinking_budget=0 禁用推理（变成快速模式），数值越大推理越深。

Flash 版本

Gemini 2.5 Flash 是 Pro 的轻量版：

速度：Pro 的 5-10 倍
价格：Input $0.075/M（Pro 的 6%）
能力：保留 Pro 约 85% 的能力

对于高吞吐场景（客服 bot、批量分类、内容审核），Flash 的性价比无敌。

API 调用示例

Python SDK（新版 google-genai）

from google import genai

client = genai.Client(api_key="AIza...")

resp = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="Hello, summarize this PDF.",
    config={
        "temperature": 1.0,
        "max_output_tokens": 8000,
        "response_mime_type": "application/json",   # 强制 JSON 输出
    },
)
print(resp.text)

Context Caching（显式 API，与 OpenAI 自动 cache 不同）

# 1. 创建 cache
cache = client.caches.create(
    model="gemini-2.5-pro",
    config={
        "contents": [{"role": "user", "parts": [{"text": LONG_DOCUMENT}]}],
        "ttl": "3600s",   # 1 小时
    },
)

# 2. 用 cache 名引用
resp = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="What are the key findings?",
    config={"cached_content": cache.name},
)
# Input 价格 -75%，再加按小时存储费

显式 cache 适合少量超长文档反复问的场景（合同、财报）。注意 cache 不是免费——按存储时长计费 $4.50/M-token/hour。

关键参数

参数	推荐	说明
`temperature`	1.0（默认）	推理模型，不要改
`top_p`	0.95（默认）	Gemini 默认就开了 nucleus sampling
`max_output_tokens`	显式设	否则默认 8192，长输出会截断
`thinking_budget`	0 / 8000 / 32000	简单任务 0，复杂推理拉满
`response_mime_type`	`application/json`	强制 JSON，配合 `response_schema`

定价

项目	Pro（≤200K input）	Pro（>200K input）	Flash
Input	$1.25/M	$2.50/M	$0.075/M
Output	$10/M	$15/M	$0.30/M
Cached Input	$0.31/M	$0.625/M	$0.01875/M
Cache 存储	$4.50/M/hour	—	$1.00/M/hour

重要：Pro 的价格在 200K input 处翻倍！很多人没注意到这点。如果你的 prompt 长期超过 200K，先做检索压缩再喂给模型比硬塞 600K 划算。

视频理解的真实场景

Gemini Pro 在视频上的护城河目前没人能赶上：

任务	价值
安防录像分析	找特定行为发生时刻
在线课程切片	自动出章节标题 / 摘要 / 字幕
电商商品视频	自动出产品标签 / 文案
会议录像	自动出会议纪要 / TODO
故障复盘	看操作录屏定位用户卡点

调用价：1 分钟 1080p 视频约 250-500 input token，1 小时视频 ~30K token，远比想象中便宜。

国内使用

Google API 不对中国大陆开放，需要：

海外网络环境 + Google AI Studio API
Google Cloud Vertex AI（企业级，要海外 GCP 账号）
通过 OpenRouter / 其他中转平台
AWS Bedrock 暂不支持 Gemini（只有 Anthropic / Llama）

与其他模型怎么选

维度	Gemini 2.5 Pro	Claude Sonnet 4	GPT-5
上下文	1M（全网最长）	200K	400K
编程	★★★★☆	★★★★★	★★★★☆
多模态	★★★★★（含视频）	★★★☆☆（仅图片）	★★★★☆
推理	★★★★☆	★★★★☆	★★★★★
价格	$1.25/$10	$3/$15	$1.25/$10
工具调用稳定性	★★★★☆	★★★★★	★★★★★
国内可用	❌	❌	❌

建议：

需要处理超长内容或视频 → Gemini 2.5 Pro
主力编程 → Claude Sonnet 4
推理 / Agent → GPT-5 或 Sonnet 4

避坑清单

200K 价格断点：超过就翻倍。Prompt 设计时尽量切在 200K 以内。
thinking_budget 默认开：意味着即使简单任务也可能多花 token。批量场景显式设 0。
max_output_tokens 不设会截断：默认 8192，长输出务必显式调高到 65536。
response_mime_type=application/json 不够：还要配 response_schema 才是强约束，否则模型可能输出"// 注释"破坏 JSON。
国内中转质量参差：OpenRouter 是相对稳定的选择；自建中转要注意 Google 的速率限制。
Cache 存储费：不用了记得 caches.delete()，否则按小时持续扣费。

Gemini 2.5 Pro

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述