跳到主内容
AIHO 2026 全新改版上线
multimodalGoogle

Gemini 2.5 Pro

Google Gemini 2.5 Pro 旗舰多模态模型,100 万 token 业界最长上下文,图像 / 音频 / 视频 / 代码原生混合推理,Vertex AI 企业级 SLA 集成,Flash 版本提供 1/16 价格兜底。

规格

厂商
Google
发布日期
2025/3/25
类型
multimodal
上下文窗口
1000K tokens
最大输出
66K tokens
定价
Input $1.25/M · Output $10/M · 闪存 $0.075/M
API 兼容
google

基准测试

63.8%
SWE-bench Verified
92.1%
HumanEval
87.1%
MMLU
56.4%
GPQA Diamond

✓ 优势

  • 100 万 token 上下文,全网最长,可处理整本书/整个代码仓库
  • 多模态原生支持(图片/视频/音频/代码)
  • Flash 版本极快极便宜,适合高吞吐场景
  • Google 生态集成(Vertex AI / AI Studio)
  • 视频理解能力业界最强

⚠ 不足

  • 国内无法直连,需要海外网络
  • 编程实操中不如 Claude Sonnet 4 稳定
  • API 文档和生态不如 OpenAI/Anthropic 完善
  • 长上下文下有'中间遗忘'现象

适用场景

超长文档/书籍/代码仓库分析视频内容理解与总结多模态应用开发高吞吐低成本场景(Flash 版本)

概述

Gemini 2.5 Pro 是 Google 于 2025 年 3 月发布的旗舰模型,最大亮点是 100 万 token 的上下文窗口——全网最长。可以一次性处理整本书、整个代码仓库或数小时的视频。

核心能力

100 万 token 上下文

这是 Gemini 2.5 Pro 的杀手锏。100 万 token 约等于:

  • 一本 75 万字的中文小说
  • 一个 10 万行代码的中型项目
  • 10 小时 1080p 视频
  • 一次完整的学术会议所有论文

但要注意"中间遗忘"——超过 500K 后召回率明显下降,详见 Context Engineering。Google 自己的 Needle-in-Haystack 测试虽然全 100% 命中,但真实业务中的多 hop 推理在长上下文下仍然不稳。

多模态

原生支持图片、视频、音频输入。视频理解能力是所有大模型中最强的——可以精确识别视频中的动作、物体、场景、对话内容。

# 视频输入
content_part = {
    "file_data": {
        "mime_type": "video/mp4",
        "file_uri": "gs://bucket/lecture.mp4",
    }
}
# 1 小时视频约消耗 100K-200K token

Thinking 模式(自适应推理)

Gemini 2.5 系列内置 dynamic thinking——模型自动决定是否要"想一想"。也可以手动控制:

from google import genai

client = genai.Client(api_key="...")

resp = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="证明费马小定理",
    config={
        "thinking_config": {"thinking_budget": 8000},  # 0 = 关闭
    },
)

thinking_budget=0 禁用推理(变成快速模式),数值越大推理越深。

Flash 版本

Gemini 2.5 Flash 是 Pro 的轻量版:

  • 速度:Pro 的 5-10 倍
  • 价格:Input $0.075/M(Pro 的 6%)
  • 能力:保留 Pro 约 85% 的能力

对于高吞吐场景(客服 bot、批量分类、内容审核),Flash 的性价比无敌。

API 调用示例

Python SDK(新版 google-genai)

from google import genai

client = genai.Client(api_key="AIza...")

resp = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="Hello, summarize this PDF.",
    config={
        "temperature": 1.0,
        "max_output_tokens": 8000,
        "response_mime_type": "application/json",   # 强制 JSON 输出
    },
)
print(resp.text)

Context Caching(显式 API,与 OpenAI 自动 cache 不同)

# 1. 创建 cache
cache = client.caches.create(
    model="gemini-2.5-pro",
    config={
        "contents": [{"role": "user", "parts": [{"text": LONG_DOCUMENT}]}],
        "ttl": "3600s",   # 1 小时
    },
)

# 2. 用 cache 名引用
resp = client.models.generate_content(
    model="gemini-2.5-pro",
    contents="What are the key findings?",
    config={"cached_content": cache.name},
)
# Input 价格 -75%,再加按小时存储费

显式 cache 适合少量超长文档反复问的场景(合同、财报)。注意 cache 不是免费——按存储时长计费 $4.50/M-token/hour。

关键参数

参数推荐说明
temperature1.0(默认)推理模型,不要改
top_p0.95(默认)Gemini 默认就开了 nucleus sampling
max_output_tokens显式设否则默认 8192,长输出会截断
thinking_budget0 / 8000 / 32000简单任务 0,复杂推理拉满
response_mime_typeapplication/json强制 JSON,配合 response_schema

定价

项目Pro(≤200K input)Pro(>200K input)Flash
Input$1.25/M$2.50/M$0.075/M
Output$10/M$15/M$0.30/M
Cached Input$0.31/M$0.625/M$0.01875/M
Cache 存储$4.50/M/hour$1.00/M/hour

重要:Pro 的价格在 200K input 处翻倍!很多人没注意到这点。如果你的 prompt 长期超过 200K,先做检索压缩再喂给模型比硬塞 600K 划算。

视频理解的真实场景

Gemini Pro 在视频上的护城河目前没人能赶上:

任务价值
安防录像分析找特定行为发生时刻
在线课程切片自动出章节标题 / 摘要 / 字幕
电商商品视频自动出产品标签 / 文案
会议录像自动出会议纪要 / TODO
故障复盘看操作录屏定位用户卡点

调用价:1 分钟 1080p 视频约 250-500 input token,1 小时视频 ~30K token,远比想象中便宜。

国内使用

Google API 不对中国大陆开放,需要:

  1. 海外网络环境 + Google AI Studio API
  2. Google Cloud Vertex AI(企业级,要海外 GCP 账号)
  3. 通过 OpenRouter / 其他中转平台
  4. AWS Bedrock 暂不支持 Gemini(只有 Anthropic / Llama)

与其他模型怎么选

维度Gemini 2.5 ProClaude Sonnet 4GPT-5
上下文1M(全网最长)200K400K
编程★★★★☆★★★★★★★★★☆
多模态★★★★★(含视频)★★★☆☆(仅图片)★★★★☆
推理★★★★☆★★★★☆★★★★★
价格$1.25/$10$3/$15$1.25/$10
工具调用稳定性★★★★☆★★★★★★★★★★
国内可用

建议

  • 需要处理超长内容或视频 → Gemini 2.5 Pro
  • 主力编程 → Claude Sonnet 4
  • 推理 / Agent → GPT-5 或 Sonnet 4

避坑清单

  • 200K 价格断点:超过就翻倍。Prompt 设计时尽量切在 200K 以内。
  • thinking_budget 默认开:意味着即使简单任务也可能多花 token。批量场景显式设 0。
  • max_output_tokens 不设会截断:默认 8192,长输出务必显式调高到 65536。
  • response_mime_type=application/json 不够:还要配 response_schema 才是强约束,否则模型可能输出"// 注释"破坏 JSON。
  • 国内中转质量参差:OpenRouter 是相对稳定的选择;自建中转要注意 Google 的速率限制。
  • Cache 存储费:不用了记得 caches.delete(),否则按小时持续扣费。

延伸阅读

相关工具