Name: GPT-4o
Brand: OpenAI

概述

GPT-4o（"o" 代表 omni）是 OpenAI 于 2024 年 5 月发布的多模态模型。虽然 GPT-5 已发布，但 GPT-4o 因其出色的性价比、成熟的生态和稳定的性能，仍然是大量应用的首选模型。

核心能力

多模态

GPT-4o 原生支持文本、图片、音频输入。音频处理能力是其独特优势——可以直接理解语音内容并生成语音回复，延迟仅 232ms。Realtime API（GPT-4o-realtime）支持双向语音流，是目前实时语音 Agent 的事实标准。

速度

GPT-4o 的响应速度是 GPT-4 Turbo 的 2 倍。对于需要快速响应的场景（实时聊天、流式输出），GPT-4o 体验最好。

函数调用

GPT-4o 的函数调用（function calling）非常稳定。在 Agent 场景下，工具调用的格式正确率和意图识别准确率都是业界领先。支持 parallel tool calls —— 一次返回多个独立调用：

resp = client.chat.completions.create(
    model="gpt-4o",
    parallel_tool_calls=True,    # 默认开启
    tools=[...],
    messages=[{"role": "user", "content": "对比上海和北京天气"}],
)
# resp.choices[0].message.tool_calls 会同时包含两个 get_weather 调用

API 调用示例

from openai import OpenAI
client = OpenAI()

# 文本
resp = client.chat.completions.create(
    model="gpt-4o",
    temperature=0,           # 工具调用建议 0
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello"},
    ],
)

# 图片输入
resp = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "这张截图里有什么 bug？"},
            {"type": "image_url", "image_url": {
                "url": "https://example.com/screenshot.png",
                "detail": "high",   # low/high/auto
            }}
        ],
    }],
)

detail 参数：low 模式所有图片当 512×512 处理，固定 85 token；high 模式根据图片大小切片处理，1024×1024 约 765 token。批量分析海量截图先用 low，需要精细识别再升 high。

Realtime API（双向语音）

import asyncio
from openai import AsyncOpenAI

async def voice_agent():
    client = AsyncOpenAI()
    async with client.beta.realtime.connect(model="gpt-4o-realtime-preview") as conn:
        await conn.session.update(session={"modalities": ["text", "audio"]})
        # 推送音频流 + 接收音频流
        ...

这是 GPT-4o 区别于其他模型最大的护城河——目前没有任何其他模型在 API 层提供这种端到端语音能力。

定价

项目	价格	对比 GPT-5
Input	$2.5 / 百万 token	2×
Output	$10 / 百万 token	1×
Cached Input	$1.25 / 百万 token	10×
Realtime Audio Input	$40 / 百万 token	—
Realtime Audio Output	$80 / 百万 token	—

GPT-4o 的 Output 价格与 GPT-5 相同，但 Input 价格高一倍。对于对话密集型场景，GPT-5 更划算；对于简单任务，GPT-4o 够用且更成熟。

注意 audio token 单价比 text 高 30 倍。实时语音应用要算清楚账，月成本动辄上千刀。

什么时候用 GPT-4o 而非 GPT-5

需要音频处理 / 实时语音 → GPT-4o（GPT-5 Realtime 还在 preview）
工具/框架只支持 GPT-4o 接口 → 直接用 GPT-4o
预算敏感且任务简单 → GPT-4o 够用（虽然 GPT-5 input 更便宜，但 4o 生态老代码无缝迁移）
需要最快响应 → GPT-4o 首 token 更快
大量旧 prompt 已经针对 GPT-4o 调过 → 切 GPT-5 要重测，没必要急

什么时候必须升级到 GPT-5

需要 200K 以上上下文（4o 只有 128K）
复杂推理 / 数学（4o GPQA Diamond 49.9% vs GPT-5 62.5%）
SWE-bench / 编程场景（4o 45.2% vs GPT-5 68.0%，差距巨大）
想用最新 Structured Outputs / reasoning_effort 等特性

GPT-4o 变种

变种	用途
`gpt-4o`	主力
`gpt-4o-mini`	轻量级，Input $0.15/M Output $0.6/M，但 SWE-bench 只有 33%
`gpt-4o-realtime-preview`	实时双向语音
`gpt-4o-audio-preview`	异步音频输入输出
`gpt-4o-transcribe`	仅做 STT 转写

限流与国内使用

限流体系与 GPT-5 相同，按账户 Tier 分档。

国内使用三种方式：

API 中转（OpenRouter / 自建 Cloudflare Workers）
Azure OpenAI（企业级 SLA，但要海外 Azure 账号）
GitHub Models（小流量免费，仅限实验）

避坑清单

gpt-4o-mini ≠ 便宜版 4o：SWE-bench / GPQA 都断崖式下跌，只适合分类 / 抽取这类简单任务，别拿它写代码。
detail: auto 不可控：图像分析用量大时显式指定 low 或 high，否则成本飘忽。
Realtime API 费用高：音频 token 单价 30x 文本，长会话每分钟可能花到一两毛美元，要做限时控制。
128K 上下文也有"中间遗忘"：超过 ~80K 后召回率明显下降，长文档分析要靠 RAG 而不是硬塞。
stream 模式下 tool_calls 拼装：流式响应里 tool_calls 是分片到达的，要手动累加 arguments 字符串再解析 JSON，新手常踩。

GPT-4o

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述