Gemini 2.5 Flash
Google Gemini 2.5 Flash 极致性价比模型,输入 $0.075/M 全网最低之一,100 万 token 超长上下文 + 原生多模态(图像 / 音频 / 视频),适合高吞吐 RAG、批量文档分析与成本敏感型生产场景。
规格
- 厂商
- 发布日期
- 2025/6/17
- 类型
- multimodal
- 上下文窗口
- 1000K tokens
- 最大输出
- 66K tokens
- 定价
- Input $0.075/M · Output $0.30/M · 闪存 $0.01875/M
- API 兼容
基准测试
✓ 优势
- •全网最便宜的模型,Input 仅 $0.075/M
- •100 万 token 上下文,与 Pro 版一致
- •速度极快,适合实时场景
- •多模态支持(图片/视频/音频)
- •65K 输出窗口
⚠ 不足
- •推理能力弱于 Pro 版
- •编程能力一般,不如 Claude
- •国内无法直连
- •长上下文下质量下降明显
适用场景
概述
Gemini 2.5 Flash 是 Gemini 2.5 Pro 的轻量版,定位为"极致性价比"。Input $0.075/M token——是 Claude Sonnet 4 的 1/40,GPT-4o 的 1/33。保留 100 万 token 上下文和多模态能力。
核心能力
全网最低价
| 模型 | Input 价格 | 对比 Flash |
|---|---|---|
| Gemini 2.5 Flash | $0.075/M | 1× |
| Gemini 2.5 Pro | $1.25/M | 17× |
| GPT-4o-mini | $0.15/M | 2× |
| GPT-4o | $2.5/M | 33× |
| Claude Haiku 4 | $1/M | 13× |
| Claude Sonnet 4 | $3/M | 40× |
100 亿 token 的 Input 费用:Flash $750,Sonnet 4 $30,000。
100 万 token 上下文
与 Pro 版共享 100 万 token 上下文窗口。可以用极低成本处理超长文档、整个代码仓库。但实测同样有"中间遗忘"问题,超过 200K 后质量明显下降,详见 Context Engineering。
多模态
支持图片、视频、音频输入。视频理解能力继承自 Pro 版,质量略低但速度更快——适合海量视频内容审核 / 打标场景。
速度
首 token 延迟 ~0.3s,流式吞吐 ~120 tok/s,是同档最快的之一。对实时聊天 / 流式输出体验非常重要。
API 调用示例
from google import genai
client = genai.Client(api_key="AIza...")
# 关闭 thinking 加速(Flash 默认也开了 thinking,但对简单任务无必要)
resp = client.models.generate_content(
model="gemini-2.5-flash",
contents="把这段文本分类:" + text,
config={
"temperature": 0,
"max_output_tokens": 100,
"thinking_config": {"thinking_budget": 0}, # 关掉省钱省时间
"response_mime_type": "application/json",
"response_schema": {
"type": "object",
"properties": {"category": {"type": "string"}},
},
},
)
thinking_budget=0 是 Flash 的重要省钱开关——批量分类、抽取这种"无脑活"完全不需要推理,关掉后速度 +30%、token -20%。
Batch API
Gemini Batch API 提供 -50% 折扣(Flash Input 直接砍到 $0.0375/M),24 小时内出结果:
batch = client.batches.create(
model="gemini-2.5-flash",
requests=[
{"contents": "分类:" + t} for t in texts
],
)
万级离线任务的成本基本可以忽略不计。
实际表现
Flash 保留约 Pro 85% 的能力。在以下场景表现优秀:
- 文本分类、情感分析
- 文档摘要、信息抽取
- 简单问答、FAQ
- 代码补全(简单场景)
- 视频内容打标 / 审核
- 多语言翻译
以下场景建议用 Pro:
- 复杂推理 / 数学
- 精确编程 / 多文件改写
- 需要深度分析的长文档
- 法律 / 医疗等严格场景
典型用量成本
| 场景 | 日用量 | Flash 月成本 | Sonnet 4 月成本 |
|---|---|---|---|
| 客服 Bot(1 万次/天) | ~500M Input + 100M Output | ~$2.3 | ~$95 |
| 文档摘要(1 万篇/天) | ~2B Input + 200M Output | ~$6.3 | ~$270 |
| 实时翻译 | ~10B Input + 10B Output | ~$112 | ~$5,400 |
| 内容审核(10 万条/天) | ~3B Input + 30M Output | ~$7.1 | ~$285 |
用 Claude Sonnet 4 做同样的事,成本是 40 倍——很多生意做不起来。
Flash vs Flash-Lite
Google 还有更轻的 gemini-2.5-flash-lite:
| 维度 | Flash | Flash-Lite |
|---|---|---|
| Input | $0.075/M | $0.0375/M |
| Output | $0.30/M | $0.15/M |
| 上下文 | 1M | 1M |
| MMLU | 78.5% | ~73% |
| 速度 | ★★★★★ | ★★★★★ |
Flash-Lite 适合极端高吞吐场景(百亿级 token / 月)。但能力差距明显,能用 Flash 就别用 Lite。
适合 / 不适合
✅ 适合:
- 内容分类 / 情感分析 / 关键词抽取
- 客服 Bot 第一线(复杂问题升级到 Pro)
- 海量文档摘要 / 知识库构建
- 视频审核 / 直播切片打标
- 离线 batch 数据清洗
❌ 不适合:
- AI 编程主力(SWE-bench 表现差)
- 复杂 Agent 多步推理(工具调用稳定性不够)
- 法律 / 医疗严格场景(拒答率低,幻觉风险)
- 长文创意写作(输出质量明显不如 Sonnet/Opus)
实战:分层路由模式
很多生产系统用 Flash + Pro/Sonnet 双模型分层:
用户请求
│
├─ [Flash 路由器] 快速判断任务复杂度
│ ├─ 简单(80%) → Flash 直接回答
│ └─ 复杂(20%) → 转 Pro / Claude Sonnet 4
│
└─ 综合:均价低、用户体验不打折
实际可能:80% 流量走 Flash($0.1/万条),20% 走 Sonnet 4($10/万条),均价 $2/万条——比纯 Sonnet 4 便宜 5 倍。
避坑清单
thinking_budget默认非 0:Flash 也会"想一会儿",简单任务必须显式关掉。- JSON 输出务必带 schema:
response_mime_type=application/json单独用不够强约束。 - 多语言慎重:英文中文表现 OK,小语种(日韩阿拉伯等)质量明显不如 Pro。
- 视频不要超过 1 小时:尽管 1M 上下文支持,但长视频"中间遗忘"严重,建议切片处理。
- 国内访问:和 Pro 一样需中转,OpenRouter 或自建 Cloudflare Workers。
延伸阅读
- 上位旗舰:Gemini 2.5 Pro
- 同档对比:Claude Haiku 4 / DeepSeek-V3
- 成本控制:Token
- 分层架构:AI Agent