Claude Haiku 4
Anthropic Claude Haiku 4 轻量快速模型,价格为 Sonnet 4 的 1/3、推理速度约 3 倍,工具调用与指令跟随保持 Claude 家族水准,适合代码补全、IDE 实时辅助、批量处理与高并发 Agent 场景。
规格
- 厂商
- Anthropic
- 发布日期
- 2025/5/22
- 类型
- llm
- 上下文窗口
- 200K tokens
- 最大输出
- 16K tokens
- 定价
- Input $1/M · Output $5/M
- API 兼容
- anthropic
基准测试
✓ 优势
- •速度极快,3 倍于 Sonnet 4
- •价格仅为 Sonnet 4 的 1/3
- •200K 上下文,与 Sonnet 4 一致
- •编程能力远超同价位竞品
- •适合高并发、低延迟场景
⚠ 不足
- •推理能力不如 Sonnet 4 / Opus 4
- •复杂编程任务不如 Sonnet 4 稳定
- •16K 输出窗口偏短
- •国内无官方 API
适用场景
概述
Claude Haiku 4 是 Anthropic 于 2025 年 5 月与 Sonnet 4 / Opus 4 同步发布的轻量模型。定位为"快速 + 低成本"选项,速度是 Sonnet 4 的 3 倍,价格仅 1/3。
核心能力
极速响应
Haiku 4 的首 token 延迟约 0.5 秒,是 Sonnet 4 的 1/3。对于实时代码补全、流式聊天等场景,这个速度差异至关重要。
实测吞吐:
| 场景 | Haiku 4 | Sonnet 4 |
|---|---|---|
| 首 token 延迟 | ~0.5s | ~1.5s |
| 流式吞吐 | ~80 tok/s | ~50 tok/s |
| 1K 字回答总时长 | ~2s | ~6s |
编程能力不打折
SWE-bench Verified 56.1%,远超同价位的 GPT-4o-mini(33.2%)和 Gemini Flash(43.8%)。在代码补全场景下,Haiku 4 的体验接近 Sonnet 4 的 80%。
200K 上下文
与 Sonnet 4 共享 200K 上下文窗口。可以用低成本处理长文档、全文件分析等任务。
Prompt Cache 仍然支持
Haiku 4 同样支持 prompt cache,Cache Read 价格只有 $0.10/M——便宜到几乎可以忽略。高频固定 prompt 场景务必开启。
API 调用示例
from anthropic import Anthropic
client = Anthropic()
# 极致速度场景:流式 + 短 max_tokens
with client.messages.stream(
model="claude-haiku-4-20250522",
max_tokens=500, # 不要默认 16K,限制输出长度提速
temperature=0,
messages=[{"role": "user", "content": prompt}],
) as stream:
for text in stream.text_stream:
yield text
批量处理(Batch API)
Haiku 4 配合 Anthropic Batch API,价格再 -50%(变成 Input $0.5/M · Output $2.5/M),24 小时内返回。适合:
# 提交 10000 条要分类的文本
batch = client.messages.batches.create(
requests=[
{
"custom_id": f"task-{i}",
"params": {
"model": "claude-haiku-4-20250522",
"max_tokens": 100,
"messages": [{"role": "user", "content": f"分类:{text}"}],
}
}
for i, text in enumerate(texts)
]
)
# 轮询 batch.id 直到 status='ended'
万级任务用 Batch 一晚就出,成本是单条同步调用的 1/2。
定价
| 项目 | Haiku 4 | Sonnet 4 | 倍数 |
|---|---|---|---|
| Input | $1/M | $3/M | 3× |
| Output | $5/M | $15/M | 3× |
| Cache Read | $0.10/M | $0.30/M | 3× |
| Batch(-50%) | $0.5/$2.5 | $1.5/$7.5 | 3× |
一个月用 10 亿 token(Input/Output 各半):
- Sonnet 4: $9,000
- Haiku 4: $3,000
- Haiku 4 + 50% cache: $1,650
- Haiku 4 + Batch: $1,500
在 Cursor / IDE 中的角色
Cursor / Windsurf 等 IDE 内部通常分两档模型:
- Tab 自动补全 / Cmd+K 小改动 → 用 Haiku 4 这类速度优先模型
- Composer 多文件改写 / Agent → 用 Sonnet 4 这类质量优先模型
如果你自建 IDE 集成,参考这个分层。
Haiku 4 vs 同价位竞品
| 模型 | Input | Output | SWE-bench | 速度 |
|---|---|---|---|---|
| Claude Haiku 4 | $1/M | $5/M | 56.1% | ★★★★★ |
| GPT-4o-mini | $0.15/M | $0.60/M | 33.2% | ★★★★★ |
| Gemini 2.5 Flash | $0.075/M | $0.30/M | 43.8% | ★★★★★ |
| DeepSeek-V3 | ¥1/M | ¥2/M | 61.2% | ★★★★☆ |
GPT-4o-mini / Gemini Flash 便宜 5-10 倍,但 SWE-bench 差一大截。Haiku 4 是"轻量级里编程最强",DeepSeek-V3 是"国内便宜里编程最强"。
三档模型怎么选
| 场景 | 推荐 | 理由 |
|---|---|---|
| 代码补全/实时建议 | Haiku 4 | 速度优先 |
| 主力编程/代码审查 | Sonnet 4 | 质量优先 |
| 深度推理/长文写作 | Opus 4 | 能力优先 |
| 批量处理 10 万条数据 | Haiku 4 + Batch | 成本优先 |
| Agent 多步工具调用 | Sonnet 4 | 稳定性优先 |
| 国内项目预算敏感 | GLM-5.2 / DeepSeek-V3 | 直连且更便宜 |
适用 / 不适用清单
✅ 适合:
- 代码自动补全(Cursor Tab / Copilot 风格)
- 实时聊天机器人 / 客服
- 大批量分类 / 抽取 / 摘要
- 工具调用前置的简单 router 模型
- 日志解析 / 语义提取
❌ 不适合:
- 复杂多步推理(用 Sonnet 4 / Opus 4)
- 多文件代码重构(用 Sonnet 4)
- 长文写作(16K 输出窗口不够)
- 法律 / 医疗 / 金融的严格场景(用 Opus 4)
避坑清单
- 别忘 max_tokens:不显式设的话默认值很大,浪费速度和钱。
- 16K 输出限制:长文档处理时让模型分段输出。
- Cache 也要开:哪怕 Haiku 已经很便宜,固定 prompt 部分 cache 后又能再省 50%。
- 复杂任务不要硬凑:模型选错宁可重路由也别让 Haiku 4 硬扛——你省的钱会在用户体验上还回去。
延伸阅读
- 同系兄弟:Claude Sonnet 4 / Claude Opus 4
- 省钱原理:Token
- 速度优化:Context Engineering