GPT-4o
OpenAI GPT-4o 多模态主力模型,文本 / 图像 / 语音原生统一推理,响应速度业界领先,开发者生态最成熟(Function Calling、Assistants API、Structured Outputs 一线适配),适合通用多模态应用与高吞吐生产部署。
规格
- 厂商
- OpenAI
- 发布日期
- 2024/5/13
- 类型
- multimodal
- 上下文窗口
- 128K tokens
- 最大输出
- 16K tokens
- 定价
- Input $2.5/M · Output $10/M · Cached $1.25/M
- API 兼容
- openai
基准测试
✓ 优势
- •多模态原生支持(图片/音频/视频),速度快
- •性价比高,比 GPT-5 便宜一半
- •生态最成熟,几乎所有工具都支持
- •流式响应快,首 token 延迟低
- •函数调用稳定可靠
⚠ 不足
- •推理能力不如 GPT-5 / Claude Sonnet 4
- •编程能力中规中矩,不如 Claude
- •128K 上下文小于 GPT-5(400K)
- •国内无官方 API
适用场景
概述
GPT-4o("o" 代表 omni)是 OpenAI 于 2024 年 5 月发布的多模态模型。虽然 GPT-5 已发布,但 GPT-4o 因其出色的性价比、成熟的生态和稳定的性能,仍然是大量应用的首选模型。
核心能力
多模态
GPT-4o 原生支持文本、图片、音频输入。音频处理能力是其独特优势——可以直接理解语音内容并生成语音回复,延迟仅 232ms。Realtime API(GPT-4o-realtime)支持双向语音流,是目前实时语音 Agent 的事实标准。
速度
GPT-4o 的响应速度是 GPT-4 Turbo 的 2 倍。对于需要快速响应的场景(实时聊天、流式输出),GPT-4o 体验最好。
函数调用
GPT-4o 的函数调用(function calling)非常稳定。在 Agent 场景下,工具调用的格式正确率和意图识别准确率都是业界领先。支持 parallel tool calls —— 一次返回多个独立调用:
resp = client.chat.completions.create(
model="gpt-4o",
parallel_tool_calls=True, # 默认开启
tools=[...],
messages=[{"role": "user", "content": "对比上海和北京天气"}],
)
# resp.choices[0].message.tool_calls 会同时包含两个 get_weather 调用
API 调用示例
from openai import OpenAI
client = OpenAI()
# 文本
resp = client.chat.completions.create(
model="gpt-4o",
temperature=0, # 工具调用建议 0
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello"},
],
)
# 图片输入
resp = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "这张截图里有什么 bug?"},
{"type": "image_url", "image_url": {
"url": "https://example.com/screenshot.png",
"detail": "high", # low/high/auto
}}
],
}],
)
detail 参数:low 模式所有图片当 512×512 处理,固定 85 token;high 模式根据图片大小切片处理,1024×1024 约 765 token。批量分析海量截图先用 low,需要精细识别再升 high。
Realtime API(双向语音)
import asyncio
from openai import AsyncOpenAI
async def voice_agent():
client = AsyncOpenAI()
async with client.beta.realtime.connect(model="gpt-4o-realtime-preview") as conn:
await conn.session.update(session={"modalities": ["text", "audio"]})
# 推送音频流 + 接收音频流
...
这是 GPT-4o 区别于其他模型最大的护城河——目前没有任何其他模型在 API 层提供这种端到端语音能力。
定价
| 项目 | 价格 | 对比 GPT-5 |
|---|---|---|
| Input | $2.5 / 百万 token | 2× |
| Output | $10 / 百万 token | 1× |
| Cached Input | $1.25 / 百万 token | 10× |
| Realtime Audio Input | $40 / 百万 token | — |
| Realtime Audio Output | $80 / 百万 token | — |
GPT-4o 的 Output 价格与 GPT-5 相同,但 Input 价格高一倍。对于对话密集型场景,GPT-5 更划算;对于简单任务,GPT-4o 够用且更成熟。
注意 audio token 单价比 text 高 30 倍。实时语音应用要算清楚账,月成本动辄上千刀。
什么时候用 GPT-4o 而非 GPT-5
- 需要音频处理 / 实时语音 → GPT-4o(GPT-5 Realtime 还在 preview)
- 工具/框架只支持 GPT-4o 接口 → 直接用 GPT-4o
- 预算敏感且任务简单 → GPT-4o 够用(虽然 GPT-5 input 更便宜,但 4o 生态老代码无缝迁移)
- 需要最快响应 → GPT-4o 首 token 更快
- 大量旧 prompt 已经针对 GPT-4o 调过 → 切 GPT-5 要重测,没必要急
什么时候必须升级到 GPT-5
- 需要 200K 以上上下文(4o 只有 128K)
- 复杂推理 / 数学(4o GPQA Diamond 49.9% vs GPT-5 62.5%)
- SWE-bench / 编程场景(4o 45.2% vs GPT-5 68.0%,差距巨大)
- 想用最新 Structured Outputs / reasoning_effort 等特性
GPT-4o 变种
| 变种 | 用途 |
|---|---|
gpt-4o | 主力 |
gpt-4o-mini | 轻量级,Input $0.15/M Output $0.6/M,但 SWE-bench 只有 33% |
gpt-4o-realtime-preview | 实时双向语音 |
gpt-4o-audio-preview | 异步音频输入输出 |
gpt-4o-transcribe | 仅做 STT 转写 |
限流与国内使用
限流体系与 GPT-5 相同,按账户 Tier 分档。
国内使用三种方式:
- API 中转(OpenRouter / 自建 Cloudflare Workers)
- Azure OpenAI(企业级 SLA,但要海外 Azure 账号)
- GitHub Models(小流量免费,仅限实验)
避坑清单
gpt-4o-mini≠ 便宜版 4o:SWE-bench / GPQA 都断崖式下跌,只适合分类 / 抽取这类简单任务,别拿它写代码。detail: auto不可控:图像分析用量大时显式指定low或high,否则成本飘忽。- Realtime API 费用高:音频 token 单价 30x 文本,长会话每分钟可能花到一两毛美元,要做限时控制。
- 128K 上下文也有"中间遗忘":超过 ~80K 后召回率明显下降,长文档分析要靠 RAG 而不是硬塞。
- stream 模式下 tool_calls 拼装:流式响应里
tool_calls是分片到达的,要手动累加arguments字符串再解析 JSON,新手常踩。
延伸阅读
- 上位替代:GPT-5
- 工具调用:Function Calling
- 多模态视角:Embedding(图像 embedding 互补)
- 省 token:Token / Context Engineering