Name: Gemini 2.5 Flash
Brand: Google

概述

Gemini 2.5 Flash 是 Gemini 2.5 Pro 的轻量版，定位为"极致性价比"。Input $0.075/M token——是 Claude Sonnet 4 的 1/40，GPT-4o 的 1/33。保留 100 万 token 上下文和多模态能力。

核心能力

全网最低价

模型	Input 价格	对比 Flash
Gemini 2.5 Flash	$0.075/M	1×
Gemini 2.5 Pro	$1.25/M	17×
GPT-4o-mini	$0.15/M	2×
GPT-4o	$2.5/M	33×
Claude Haiku 4	$1/M	13×
Claude Sonnet 4	$3/M	40×

100 亿 token 的 Input 费用：Flash $750，Sonnet 4 $30,000。

100 万 token 上下文

与 Pro 版共享 100 万 token 上下文窗口。可以用极低成本处理超长文档、整个代码仓库。但实测同样有"中间遗忘"问题，超过 200K 后质量明显下降，详见 Context Engineering。

多模态

支持图片、视频、音频输入。视频理解能力继承自 Pro 版，质量略低但速度更快——适合海量视频内容审核 / 打标场景。

速度

首 token 延迟 ~0.3s，流式吞吐 ~120 tok/s，是同档最快的之一。对实时聊天 / 流式输出体验非常重要。

API 调用示例

from google import genai
client = genai.Client(api_key="AIza...")

# 关闭 thinking 加速（Flash 默认也开了 thinking，但对简单任务无必要）
resp = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="把这段文本分类：" + text,
    config={
        "temperature": 0,
        "max_output_tokens": 100,
        "thinking_config": {"thinking_budget": 0},   # 关掉省钱省时间
        "response_mime_type": "application/json",
        "response_schema": {
            "type": "object",
            "properties": {"category": {"type": "string"}},
        },
    },
)

thinking_budget=0 是 Flash 的重要省钱开关——批量分类、抽取这种"无脑活"完全不需要推理，关掉后速度 +30%、token -20%。

Batch API

Gemini Batch API 提供 -50% 折扣（Flash Input 直接砍到 $0.0375/M），24 小时内出结果：

batch = client.batches.create(
    model="gemini-2.5-flash",
    requests=[
        {"contents": "分类：" + t} for t in texts
    ],
)

万级离线任务的成本基本可以忽略不计。

实际表现

Flash 保留约 Pro 85% 的能力。在以下场景表现优秀：

文本分类、情感分析
文档摘要、信息抽取
简单问答、FAQ
代码补全（简单场景）
视频内容打标 / 审核
多语言翻译

以下场景建议用 Pro：

复杂推理 / 数学
精确编程 / 多文件改写
需要深度分析的长文档
法律 / 医疗等严格场景

典型用量成本

场景	日用量	Flash 月成本	Sonnet 4 月成本
客服 Bot（1 万次/天）	~500M Input + 100M Output	~$2.3	~$95
文档摘要（1 万篇/天）	~2B Input + 200M Output	~$6.3	~$270
实时翻译	~10B Input + 10B Output	~$112	~$5,400
内容审核（10 万条/天）	~3B Input + 30M Output	~$7.1	~$285

用 Claude Sonnet 4 做同样的事，成本是 40 倍——很多生意做不起来。

Flash vs Flash-Lite

Google 还有更轻的 gemini-2.5-flash-lite：

维度	Flash	Flash-Lite
Input	$0.075/M	$0.0375/M
Output	$0.30/M	$0.15/M
上下文	1M	1M
MMLU	78.5%	~73%
速度	★★★★★	★★★★★

Flash-Lite 适合极端高吞吐场景（百亿级 token / 月）。但能力差距明显，能用 Flash 就别用 Lite。

适合 / 不适合

✅ 适合：

内容分类 / 情感分析 / 关键词抽取
客服 Bot 第一线（复杂问题升级到 Pro）
海量文档摘要 / 知识库构建
视频审核 / 直播切片打标
离线 batch 数据清洗

❌ 不适合：

AI 编程主力（SWE-bench 表现差）
复杂 Agent 多步推理（工具调用稳定性不够）
法律 / 医疗严格场景（拒答率低，幻觉风险）
长文创意写作（输出质量明显不如 Sonnet/Opus）

实战：分层路由模式

很多生产系统用 Flash + Pro/Sonnet 双模型分层：

用户请求
  │
  ├─ [Flash 路由器] 快速判断任务复杂度
  │     ├─ 简单（80%） → Flash 直接回答
  │     └─ 复杂（20%） → 转 Pro / Claude Sonnet 4
  │
  └─ 综合：均价低、用户体验不打折

实际可能：80% 流量走 Flash（~~$0.1/万条），20% 走 Sonnet 4（~~$10/万条），均价 $2/万条——比纯 Sonnet 4 便宜 5 倍。

避坑清单

thinking_budget 默认非 0：Flash 也会"想一会儿"，简单任务必须显式关掉。
JSON 输出务必带 schema：response_mime_type=application/json 单独用不够强约束。
多语言慎重：英文中文表现 OK，小语种（日韩阿拉伯等）质量明显不如 Pro。
视频不要超过 1 小时：尽管 1M 上下文支持，但长视频"中间遗忘"严重，建议切片处理。
国内访问：和 Pro 一样需中转，OpenRouter 或自建 Cloudflare Workers。

Gemini 2.5 Flash

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述