跳到主内容
AIHO 2026 全新改版上线
llmAnthropic

Claude Haiku 4

Anthropic Claude Haiku 4 轻量快速模型,价格为 Sonnet 4 的 1/3、推理速度约 3 倍,工具调用与指令跟随保持 Claude 家族水准,适合代码补全、IDE 实时辅助、批量处理与高并发 Agent 场景。

规格

厂商
Anthropic
发布日期
2025/5/22
类型
llm
上下文窗口
200K tokens
最大输出
16K tokens
定价
Input $1/M · Output $5/M
API 兼容
anthropic

基准测试

56.1%
SWE-bench Verified
87.1%
HumanEval
83.4%
MMLU

✓ 优势

  • 速度极快,3 倍于 Sonnet 4
  • 价格仅为 Sonnet 4 的 1/3
  • 200K 上下文,与 Sonnet 4 一致
  • 编程能力远超同价位竞品
  • 适合高并发、低延迟场景

⚠ 不足

  • 推理能力不如 Sonnet 4 / Opus 4
  • 复杂编程任务不如 Sonnet 4 稳定
  • 16K 输出窗口偏短
  • 国内无官方 API

适用场景

代码补全(实时建议)高并发客服 Bot批量文本处理轻量 Agent 任务

概述

Claude Haiku 4 是 Anthropic 于 2025 年 5 月与 Sonnet 4 / Opus 4 同步发布的轻量模型。定位为"快速 + 低成本"选项,速度是 Sonnet 4 的 3 倍,价格仅 1/3。

核心能力

极速响应

Haiku 4 的首 token 延迟约 0.5 秒,是 Sonnet 4 的 1/3。对于实时代码补全、流式聊天等场景,这个速度差异至关重要。

实测吞吐:

场景Haiku 4Sonnet 4
首 token 延迟~0.5s~1.5s
流式吞吐~80 tok/s~50 tok/s
1K 字回答总时长~2s~6s

编程能力不打折

SWE-bench Verified 56.1%,远超同价位的 GPT-4o-mini(33.2%)和 Gemini Flash(43.8%)。在代码补全场景下,Haiku 4 的体验接近 Sonnet 4 的 80%。

200K 上下文

与 Sonnet 4 共享 200K 上下文窗口。可以用低成本处理长文档、全文件分析等任务。

Prompt Cache 仍然支持

Haiku 4 同样支持 prompt cache,Cache Read 价格只有 $0.10/M——便宜到几乎可以忽略。高频固定 prompt 场景务必开启

API 调用示例

from anthropic import Anthropic
client = Anthropic()

# 极致速度场景:流式 + 短 max_tokens
with client.messages.stream(
    model="claude-haiku-4-20250522",
    max_tokens=500,           # 不要默认 16K,限制输出长度提速
    temperature=0,
    messages=[{"role": "user", "content": prompt}],
) as stream:
    for text in stream.text_stream:
        yield text

批量处理(Batch API)

Haiku 4 配合 Anthropic Batch API,价格再 -50%(变成 Input $0.5/M · Output $2.5/M),24 小时内返回。适合:

# 提交 10000 条要分类的文本
batch = client.messages.batches.create(
    requests=[
        {
            "custom_id": f"task-{i}",
            "params": {
                "model": "claude-haiku-4-20250522",
                "max_tokens": 100,
                "messages": [{"role": "user", "content": f"分类:{text}"}],
            }
        }
        for i, text in enumerate(texts)
    ]
)
# 轮询 batch.id 直到 status='ended'

万级任务用 Batch 一晚就出,成本是单条同步调用的 1/2。

定价

项目Haiku 4Sonnet 4倍数
Input$1/M$3/M
Output$5/M$15/M
Cache Read$0.10/M$0.30/M
Batch(-50%)$0.5/$2.5$1.5/$7.5

一个月用 10 亿 token(Input/Output 各半):

  • Sonnet 4: $9,000
  • Haiku 4: $3,000
  • Haiku 4 + 50% cache: $1,650
  • Haiku 4 + Batch: $1,500

在 Cursor / IDE 中的角色

Cursor / Windsurf 等 IDE 内部通常分两档模型:

  • Tab 自动补全 / Cmd+K 小改动 → 用 Haiku 4 这类速度优先模型
  • Composer 多文件改写 / Agent → 用 Sonnet 4 这类质量优先模型

如果你自建 IDE 集成,参考这个分层。

Haiku 4 vs 同价位竞品

模型InputOutputSWE-bench速度
Claude Haiku 4$1/M$5/M56.1%★★★★★
GPT-4o-mini$0.15/M$0.60/M33.2%★★★★★
Gemini 2.5 Flash$0.075/M$0.30/M43.8%★★★★★
DeepSeek-V3¥1/M¥2/M61.2%★★★★☆

GPT-4o-mini / Gemini Flash 便宜 5-10 倍,但 SWE-bench 差一大截。Haiku 4 是"轻量级里编程最强",DeepSeek-V3 是"国内便宜里编程最强"。

三档模型怎么选

场景推荐理由
代码补全/实时建议Haiku 4速度优先
主力编程/代码审查Sonnet 4质量优先
深度推理/长文写作Opus 4能力优先
批量处理 10 万条数据Haiku 4 + Batch成本优先
Agent 多步工具调用Sonnet 4稳定性优先
国内项目预算敏感GLM-5.2 / DeepSeek-V3直连且更便宜

适用 / 不适用清单

✅ 适合:

  • 代码自动补全(Cursor Tab / Copilot 风格)
  • 实时聊天机器人 / 客服
  • 大批量分类 / 抽取 / 摘要
  • 工具调用前置的简单 router 模型
  • 日志解析 / 语义提取

❌ 不适合:

  • 复杂多步推理(用 Sonnet 4 / Opus 4)
  • 多文件代码重构(用 Sonnet 4)
  • 长文写作(16K 输出窗口不够)
  • 法律 / 医疗 / 金融的严格场景(用 Opus 4)

避坑清单

  • 别忘 max_tokens:不显式设的话默认值很大,浪费速度和钱。
  • 16K 输出限制:长文档处理时让模型分段输出。
  • Cache 也要开:哪怕 Haiku 已经很便宜,固定 prompt 部分 cache 后又能再省 50%。
  • 复杂任务不要硬凑:模型选错宁可重路由也别让 Haiku 4 硬扛——你省的钱会在用户体验上还回去。

延伸阅读

相关工具