跳到主内容
AIHO 2026 全新改版上线
multimodalOpenAI

GPT-4o

OpenAI GPT-4o 多模态主力模型,文本 / 图像 / 语音原生统一推理,响应速度业界领先,开发者生态最成熟(Function Calling、Assistants API、Structured Outputs 一线适配),适合通用多模态应用与高吞吐生产部署。

规格

厂商
OpenAI
发布日期
2024/5/13
类型
multimodal
上下文窗口
128K tokens
最大输出
16K tokens
定价
Input $2.5/M · Output $10/M · Cached $1.25/M
API 兼容
openai

基准测试

45.2%
SWE-bench Verified
90.2%
HumanEval
88.7%
MMLU
49.9%
GPQA Diamond

✓ 优势

  • 多模态原生支持(图片/音频/视频),速度快
  • 性价比高,比 GPT-5 便宜一半
  • 生态最成熟,几乎所有工具都支持
  • 流式响应快,首 token 延迟低
  • 函数调用稳定可靠

⚠ 不足

  • 推理能力不如 GPT-5 / Claude Sonnet 4
  • 编程能力中规中矩,不如 Claude
  • 128K 上下文小于 GPT-5(400K)
  • 国内无官方 API

适用场景

多模态应用(图片理解、OCR、截图分析)聊天机器人 / 客服函数调用 / 工具编排高吞吐低成本场景

概述

GPT-4o("o" 代表 omni)是 OpenAI 于 2024 年 5 月发布的多模态模型。虽然 GPT-5 已发布,但 GPT-4o 因其出色的性价比、成熟的生态和稳定的性能,仍然是大量应用的首选模型。

核心能力

多模态

GPT-4o 原生支持文本、图片、音频输入。音频处理能力是其独特优势——可以直接理解语音内容并生成语音回复,延迟仅 232ms。Realtime API(GPT-4o-realtime)支持双向语音流,是目前实时语音 Agent 的事实标准。

速度

GPT-4o 的响应速度是 GPT-4 Turbo 的 2 倍。对于需要快速响应的场景(实时聊天、流式输出),GPT-4o 体验最好。

函数调用

GPT-4o 的函数调用(function calling)非常稳定。在 Agent 场景下,工具调用的格式正确率和意图识别准确率都是业界领先。支持 parallel tool calls —— 一次返回多个独立调用:

resp = client.chat.completions.create(
    model="gpt-4o",
    parallel_tool_calls=True,    # 默认开启
    tools=[...],
    messages=[{"role": "user", "content": "对比上海和北京天气"}],
)
# resp.choices[0].message.tool_calls 会同时包含两个 get_weather 调用

API 调用示例

from openai import OpenAI
client = OpenAI()

# 文本
resp = client.chat.completions.create(
    model="gpt-4o",
    temperature=0,           # 工具调用建议 0
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello"},
    ],
)

# 图片输入
resp = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "这张截图里有什么 bug?"},
            {"type": "image_url", "image_url": {
                "url": "https://example.com/screenshot.png",
                "detail": "high",   # low/high/auto
            }}
        ],
    }],
)

detail 参数low 模式所有图片当 512×512 处理,固定 85 token;high 模式根据图片大小切片处理,1024×1024 约 765 token。批量分析海量截图先用 low,需要精细识别再升 high。

Realtime API(双向语音)

import asyncio
from openai import AsyncOpenAI

async def voice_agent():
    client = AsyncOpenAI()
    async with client.beta.realtime.connect(model="gpt-4o-realtime-preview") as conn:
        await conn.session.update(session={"modalities": ["text", "audio"]})
        # 推送音频流 + 接收音频流
        ...

这是 GPT-4o 区别于其他模型最大的护城河——目前没有任何其他模型在 API 层提供这种端到端语音能力。

定价

项目价格对比 GPT-5
Input$2.5 / 百万 token
Output$10 / 百万 token
Cached Input$1.25 / 百万 token10×
Realtime Audio Input$40 / 百万 token
Realtime Audio Output$80 / 百万 token

GPT-4o 的 Output 价格与 GPT-5 相同,但 Input 价格高一倍。对于对话密集型场景,GPT-5 更划算;对于简单任务,GPT-4o 够用且更成熟。

注意 audio token 单价比 text 高 30 倍。实时语音应用要算清楚账,月成本动辄上千刀。

什么时候用 GPT-4o 而非 GPT-5

  • 需要音频处理 / 实时语音 → GPT-4o(GPT-5 Realtime 还在 preview)
  • 工具/框架只支持 GPT-4o 接口 → 直接用 GPT-4o
  • 预算敏感且任务简单 → GPT-4o 够用(虽然 GPT-5 input 更便宜,但 4o 生态老代码无缝迁移)
  • 需要最快响应 → GPT-4o 首 token 更快
  • 大量旧 prompt 已经针对 GPT-4o 调过 → 切 GPT-5 要重测,没必要急

什么时候必须升级到 GPT-5

  • 需要 200K 以上上下文(4o 只有 128K)
  • 复杂推理 / 数学(4o GPQA Diamond 49.9% vs GPT-5 62.5%)
  • SWE-bench / 编程场景(4o 45.2% vs GPT-5 68.0%,差距巨大)
  • 想用最新 Structured Outputs / reasoning_effort 等特性

GPT-4o 变种

变种用途
gpt-4o主力
gpt-4o-mini轻量级,Input $0.15/M Output $0.6/M,但 SWE-bench 只有 33%
gpt-4o-realtime-preview实时双向语音
gpt-4o-audio-preview异步音频输入输出
gpt-4o-transcribe仅做 STT 转写

限流与国内使用

限流体系与 GPT-5 相同,按账户 Tier 分档。

国内使用三种方式:

  1. API 中转(OpenRouter / 自建 Cloudflare Workers)
  2. Azure OpenAI(企业级 SLA,但要海外 Azure 账号)
  3. GitHub Models(小流量免费,仅限实验)

避坑清单

  • gpt-4o-mini ≠ 便宜版 4o:SWE-bench / GPQA 都断崖式下跌,只适合分类 / 抽取这类简单任务,别拿它写代码
  • detail: auto 不可控:图像分析用量大时显式指定 lowhigh,否则成本飘忽。
  • Realtime API 费用高:音频 token 单价 30x 文本,长会话每分钟可能花到一两毛美元,要做限时控制。
  • 128K 上下文也有"中间遗忘":超过 ~80K 后召回率明显下降,长文档分析要靠 RAG 而不是硬塞。
  • stream 模式下 tool_calls 拼装:流式响应里 tool_calls 是分片到达的,要手动累加 arguments 字符串再解析 JSON,新手常踩。

延伸阅读