Name: Claude Haiku 4
Brand: Anthropic

概述

Claude Haiku 4 是 Anthropic 于 2025 年 5 月与 Sonnet 4 / Opus 4 同步发布的轻量模型。定位为"快速 + 低成本"选项，速度是 Sonnet 4 的 3 倍，价格仅 1/3。

核心能力

极速响应

Haiku 4 的首 token 延迟约 0.5 秒，是 Sonnet 4 的 1/3。对于实时代码补全、流式聊天等场景，这个速度差异至关重要。

实测吞吐：

场景	Haiku 4	Sonnet 4
首 token 延迟	~0.5s	~1.5s
流式吞吐	~80 tok/s	~50 tok/s
1K 字回答总时长	~2s	~6s

编程能力不打折

SWE-bench Verified 56.1%，远超同价位的 GPT-4o-mini（33.2%）和 Gemini Flash（43.8%）。在代码补全场景下，Haiku 4 的体验接近 Sonnet 4 的 80%。

200K 上下文

与 Sonnet 4 共享 200K 上下文窗口。可以用低成本处理长文档、全文件分析等任务。

Prompt Cache 仍然支持

Haiku 4 同样支持 prompt cache，Cache Read 价格只有 $0.10/M——便宜到几乎可以忽略。高频固定 prompt 场景务必开启。

API 调用示例

from anthropic import Anthropic
client = Anthropic()

# 极致速度场景：流式 + 短 max_tokens
with client.messages.stream(
    model="claude-haiku-4-20250522",
    max_tokens=500,           # 不要默认 16K，限制输出长度提速
    temperature=0,
    messages=[{"role": "user", "content": prompt}],
) as stream:
    for text in stream.text_stream:
        yield text

批量处理（Batch API）

Haiku 4 配合 Anthropic Batch API，价格再 -50%（变成 Input $0.5/M · Output $2.5/M），24 小时内返回。适合：

# 提交 10000 条要分类的文本
batch = client.messages.batches.create(
    requests=[
        {
            "custom_id": f"task-{i}",
            "params": {
                "model": "claude-haiku-4-20250522",
                "max_tokens": 100,
                "messages": [{"role": "user", "content": f"分类：{text}"}],
            }
        }
        for i, text in enumerate(texts)
    ]
)
# 轮询 batch.id 直到 status='ended'

万级任务用 Batch 一晚就出，成本是单条同步调用的 1/2。

定价

项目	Haiku 4	Sonnet 4	倍数
Input	$1/M	$3/M	3×
Output	$5/M	$15/M	3×
Cache Read	$0.10/M	$0.30/M	3×
Batch（-50%）	$0.5/$2.5	$1.5/$7.5	3×

一个月用 10 亿 token（Input/Output 各半）：

Sonnet 4: $9,000
Haiku 4: $3,000
Haiku 4 + 50% cache: $1,650
Haiku 4 + Batch: $1,500

在 Cursor / IDE 中的角色

Cursor / Windsurf 等 IDE 内部通常分两档模型：

Tab 自动补全 / Cmd+K 小改动 → 用 Haiku 4 这类速度优先模型
Composer 多文件改写 / Agent → 用 Sonnet 4 这类质量优先模型

如果你自建 IDE 集成，参考这个分层。

Haiku 4 vs 同价位竞品

模型	Input	Output	SWE-bench	速度
Claude Haiku 4	$1/M	$5/M	56.1%	★★★★★
GPT-4o-mini	$0.15/M	$0.60/M	33.2%	★★★★★
Gemini 2.5 Flash	$0.075/M	$0.30/M	43.8%	★★★★★
DeepSeek-V3	¥1/M	¥2/M	61.2%	★★★★☆

GPT-4o-mini / Gemini Flash 便宜 5-10 倍，但 SWE-bench 差一大截。Haiku 4 是"轻量级里编程最强"，DeepSeek-V3 是"国内便宜里编程最强"。

三档模型怎么选

场景	推荐	理由
代码补全/实时建议	Haiku 4	速度优先
主力编程/代码审查	Sonnet 4	质量优先
深度推理/长文写作	Opus 4	能力优先
批量处理 10 万条数据	Haiku 4 + Batch	成本优先
Agent 多步工具调用	Sonnet 4	稳定性优先
国内项目预算敏感	GLM-5.2 / DeepSeek-V3	直连且更便宜

适用 / 不适用清单

✅ 适合：

代码自动补全（Cursor Tab / Copilot 风格）
实时聊天机器人 / 客服
大批量分类 / 抽取 / 摘要
工具调用前置的简单 router 模型
日志解析 / 语义提取

❌ 不适合：

复杂多步推理（用 Sonnet 4 / Opus 4）
多文件代码重构（用 Sonnet 4）
长文写作（16K 输出窗口不够）
法律 / 医疗 / 金融的严格场景（用 Opus 4）

避坑清单

别忘 max_tokens：不显式设的话默认值很大，浪费速度和钱。
16K 输出限制：长文档处理时让模型分段输出。
Cache 也要开：哪怕 Haiku 已经很便宜，固定 prompt 部分 cache 后又能再省 50%。
复杂任务不要硬凑：模型选错宁可重路由也别让 Haiku 4 硬扛——你省的钱会在用户体验上还回去。

Claude Haiku 4

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述