跳到主内容
AIHO 2026 全新改版上线
multimodalGoogle

Gemini 2.5 Flash

Google Gemini 2.5 Flash 极致性价比模型,输入 $0.075/M 全网最低之一,100 万 token 超长上下文 + 原生多模态(图像 / 音频 / 视频),适合高吞吐 RAG、批量文档分析与成本敏感型生产场景。

规格

厂商
Google
发布日期
2025/6/17
类型
multimodal
上下文窗口
1000K tokens
最大输出
66K tokens
定价
Input $0.075/M · Output $0.30/M · 闪存 $0.01875/M
API 兼容
google

基准测试

82.4%
HumanEval
78.5%
MMLU
42.8%
GPQA Diamond

✓ 优势

  • 全网最便宜的模型,Input 仅 $0.075/M
  • 100 万 token 上下文,与 Pro 版一致
  • 速度极快,适合实时场景
  • 多模态支持(图片/视频/音频)
  • 65K 输出窗口

⚠ 不足

  • 推理能力弱于 Pro 版
  • 编程能力一般,不如 Claude
  • 国内无法直连
  • 长上下文下质量下降明显

适用场景

高吞吐批量处理(分类/摘要/抽取)实时聊天机器人长文档快速摘要视频内容理解

概述

Gemini 2.5 Flash 是 Gemini 2.5 Pro 的轻量版,定位为"极致性价比"。Input $0.075/M token——是 Claude Sonnet 4 的 1/40,GPT-4o 的 1/33。保留 100 万 token 上下文和多模态能力。

核心能力

全网最低价

模型Input 价格对比 Flash
Gemini 2.5 Flash$0.075/M
Gemini 2.5 Pro$1.25/M17×
GPT-4o-mini$0.15/M
GPT-4o$2.5/M33×
Claude Haiku 4$1/M13×
Claude Sonnet 4$3/M40×

100 亿 token 的 Input 费用:Flash $750,Sonnet 4 $30,000。

100 万 token 上下文

与 Pro 版共享 100 万 token 上下文窗口。可以用极低成本处理超长文档、整个代码仓库。但实测同样有"中间遗忘"问题,超过 200K 后质量明显下降,详见 Context Engineering

多模态

支持图片、视频、音频输入。视频理解能力继承自 Pro 版,质量略低但速度更快——适合海量视频内容审核 / 打标场景。

速度

首 token 延迟 ~0.3s,流式吞吐 ~120 tok/s,是同档最快的之一。对实时聊天 / 流式输出体验非常重要。

API 调用示例

from google import genai
client = genai.Client(api_key="AIza...")

# 关闭 thinking 加速(Flash 默认也开了 thinking,但对简单任务无必要)
resp = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="把这段文本分类:" + text,
    config={
        "temperature": 0,
        "max_output_tokens": 100,
        "thinking_config": {"thinking_budget": 0},   # 关掉省钱省时间
        "response_mime_type": "application/json",
        "response_schema": {
            "type": "object",
            "properties": {"category": {"type": "string"}},
        },
    },
)

thinking_budget=0 是 Flash 的重要省钱开关——批量分类、抽取这种"无脑活"完全不需要推理,关掉后速度 +30%、token -20%。

Batch API

Gemini Batch API 提供 -50% 折扣(Flash Input 直接砍到 $0.0375/M),24 小时内出结果:

batch = client.batches.create(
    model="gemini-2.5-flash",
    requests=[
        {"contents": "分类:" + t} for t in texts
    ],
)

万级离线任务的成本基本可以忽略不计。

实际表现

Flash 保留约 Pro 85% 的能力。在以下场景表现优秀:

  • 文本分类、情感分析
  • 文档摘要、信息抽取
  • 简单问答、FAQ
  • 代码补全(简单场景)
  • 视频内容打标 / 审核
  • 多语言翻译

以下场景建议用 Pro:

  • 复杂推理 / 数学
  • 精确编程 / 多文件改写
  • 需要深度分析的长文档
  • 法律 / 医疗等严格场景

典型用量成本

场景日用量Flash 月成本Sonnet 4 月成本
客服 Bot(1 万次/天)~500M Input + 100M Output~$2.3~$95
文档摘要(1 万篇/天)~2B Input + 200M Output~$6.3~$270
实时翻译~10B Input + 10B Output~$112~$5,400
内容审核(10 万条/天)~3B Input + 30M Output~$7.1~$285

用 Claude Sonnet 4 做同样的事,成本是 40 倍——很多生意做不起来。

Flash vs Flash-Lite

Google 还有更轻的 gemini-2.5-flash-lite

维度FlashFlash-Lite
Input$0.075/M$0.0375/M
Output$0.30/M$0.15/M
上下文1M1M
MMLU78.5%~73%
速度★★★★★★★★★★

Flash-Lite 适合极端高吞吐场景(百亿级 token / 月)。但能力差距明显,能用 Flash 就别用 Lite。

适合 / 不适合

✅ 适合:

  • 内容分类 / 情感分析 / 关键词抽取
  • 客服 Bot 第一线(复杂问题升级到 Pro)
  • 海量文档摘要 / 知识库构建
  • 视频审核 / 直播切片打标
  • 离线 batch 数据清洗

❌ 不适合:

  • AI 编程主力(SWE-bench 表现差)
  • 复杂 Agent 多步推理(工具调用稳定性不够)
  • 法律 / 医疗严格场景(拒答率低,幻觉风险)
  • 长文创意写作(输出质量明显不如 Sonnet/Opus)

实战:分层路由模式

很多生产系统用 Flash + Pro/Sonnet 双模型分层:

用户请求
  │
  ├─ [Flash 路由器] 快速判断任务复杂度
  │     ├─ 简单(80%) → Flash 直接回答
  │     └─ 复杂(20%) → 转 Pro / Claude Sonnet 4
  │
  └─ 综合:均价低、用户体验不打折

实际可能:80% 流量走 Flash($0.1/万条),20% 走 Sonnet 4($10/万条),均价 $2/万条——比纯 Sonnet 4 便宜 5 倍。

避坑清单

  • thinking_budget 默认非 0:Flash 也会"想一会儿",简单任务必须显式关掉。
  • JSON 输出务必带 schemaresponse_mime_type=application/json 单独用不够强约束。
  • 多语言慎重:英文中文表现 OK,小语种(日韩阿拉伯等)质量明显不如 Pro。
  • 视频不要超过 1 小时:尽管 1M 上下文支持,但长视频"中间遗忘"严重,建议切片处理。
  • 国内访问:和 Pro 一样需中转,OpenRouter 或自建 Cloudflare Workers。

延伸阅读

相关工具