跳到主内容
AIHO 2026 全新改版上线
llm阿里巴巴

Qwen 3

阿里通义千问 Qwen 3 系列开源大模型,0.5B 至 235B 全尺寸覆盖,端侧小模型性能业界领先,多语言(119 种)能力广泛,国内可直连 + 慷慨免费 API 额度,适合从边缘设备到云端 GPU 的全栈部署。

规格

厂商
阿里巴巴
发布日期
2025/9/25
类型
llm
上下文窗口
131K tokens
最大输出
16K tokens
定价
Input ¥0.8/M · Output ¥2/M(免费 API 额度)
API 兼容
openai

基准测试

58.4%
SWE-bench Verified
86.7%
HumanEval
83.2%
MMLU
88.9%
CMMLU

✓ 优势

  • 开源全系列(0.5B 到 235B),覆盖端侧到云端
  • 多语言能力强,中英日韩阿法德表现均衡
  • 免费 API 额度大方,阿里云百炼平台可直接调用
  • 端侧小模型(7B/14B)性能领先,适合本地部署
  • 支持长文档理解和代码生成

⚠ 不足

  • 编程实操不如 Claude Sonnet 4 / GLM-5.2
  • Agent 工具调用生态不如 Anthropic 成熟
  • 16K 输出窗口偏短
  • 多步推理稳定性一般

适用场景

端侧 AI 部署(手机/IoT/本地)多语言应用开发低成本 API 调用企业私有化部署

概述

Qwen 3 是阿里巴巴于 2025 年 9 月发布的第三代通义千问模型系列,覆盖从 0.5B 到 235B 的全尺寸。最大特色是端侧小模型(7B/14B)在同参数级别中性能领先,适合本地部署和移动端使用。

核心能力

全尺寸开源

参数量适用场景显存需求
0.5B / 1.5B手机端、IoT、浏览器 WASM< 2GB
7B / 14B本地开发、个人使用8-16GB
32B / 72B企业部署48-128GB
Qwen3-MoE-A14B-72B性价比之选64-96GB
235B云端 API多卡 H100

端侧 7B 模型在 MMLU 上达到 75%+,足以胜任日常对话、简单编程、文档摘要等任务。这是 Qwen 系列最大的差异化优势——你能拿 7B 跑出接近 GPT-3.5 体验的本地模型,对隐私敏感的个人和企业是刚需。

Hybrid Thinking(混合推理模式)

Qwen 3 引入了可切换的推理模式——同一个模型,加 enable_thinking=True 就变推理模型:

resp = client.chat.completions.create(
    model="qwen3-235b-a22b",
    messages=[{"role": "user", "content": "证明..."}],
    extra_body={
        "enable_thinking": True,    # 开 thinking
    },
)
# resp.choices[0].message.reasoning_content 是思维链
# resp.choices[0].message.content 是最终答案

对比 DeepSeek-R1 那种"必须用单独模型",Qwen 3 一个模型双模式更省事——简单任务关 thinking 快、复杂题开 thinking 强。

多语言

中英日韩阿法德七种语言均衡发展,不像某些模型偏科中文或英文。对于需要多语言支持的应用(跨境电商、国际客服),Qwen 3 是理想选择。覆盖语种数 119 种,业界最广。

阿里云生态

通过阿里云百炼平台可以直接调用,与其他阿里云服务(OSS、RDS、函数计算)集成方便。免费额度:个人开发者每月 200 万 token。

API 调用示例

阿里云百炼平台

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen-plus",       # 旗舰别名(背后是 Qwen3-235B)
    temperature=0.3,
    messages=[
        {"role": "user", "content": "..."},
    ],
)

本地 Ollama 部署(无需联网)

# 一键拉取 7B 模型,笔记本能跑
ollama pull qwen3:7b
ollama run qwen3:7b

然后通过 OpenAI 兼容 API 接入任何工具:

client = OpenAI(
    api_key="ollama",
    base_url="http://localhost:11434/v1",
)
resp = client.chat.completions.create(model="qwen3:7b", messages=[...])

vLLM 高性能服务

企业部署推荐 vLLM:

vllm serve Qwen/Qwen3-72B \
    --tensor-parallel-size 4 \
    --max-model-len 131072 \
    --enable-prefix-caching   # 开 prompt cache

实测 4×A100 跑 72B 单并发 30 tok/s,10 并发总吞吐 200+ tok/s——比走 API 长期看更省钱。

模型家族

别名(百炼)实际型号InputOutput上下文
qwen-turboQwen3-30B-MoE¥0.3/M¥0.6/M128K
qwen-plusQwen3-72B / 235B¥0.8/M¥2/M128K
qwen-maxQwen3-Max¥2.4/M¥9.6/M32K
qwen-longQwen-Long¥0.5/M¥2/M10M
qwen-vl-plusQwen3-VL¥1.5/M¥4.5/M32K

qwen-long 上下文 1000 万 token——业界最长,专门做超长文档场景。

定价

项目价格
Input (qwen-plus)¥0.8 / 百万 token
Output (qwen-plus)¥2 / 百万 token
免费额度每月 200 万 token
Batch API-50%

DeepSeek-V3 之后第二便宜的选项。

关键参数

参数推荐说明
temperature0.7(默认)通用
temperature0工具调用 / 代码
top_p0.8默认
max_tokens显式默认 1500 太短
enable_thinkingFalse / True是否开推理模式
repetition_penalty1.05防止重复

与同档国产模型怎么选

维度Qwen 3GLM-5.2DeepSeek-V3Kimi K2
编程★★★☆☆★★★★☆★★★★☆★★★☆☆
多语言★★★★★★★★☆☆★★★☆☆★★★☆☆
端侧部署★★★★★★★★☆☆★☆☆☆☆
Hybrid Thinking分别用 R1
价格 Input¥0.8/M¥2/M¥1/M¥4/M
开源✅ 全系列部分✅ MoE
国内云生态阿里云全套智谱独立独立Moonshot

建议

  • 本地部署 / 端侧 → Qwen 3(7B 是同档最强)
  • 多语言应用 → Qwen 3
  • 主力编程 → GLM-5.2
  • 极致低成本 → DeepSeek-V3
  • 长文档分析 → Kimi K2 / qwen-long

端侧场景的真实价值

7B 模型本地能跑意味着:

场景价值
个人助手笔记/邮件/搜索本地处理,数据不出本机
IoT 设备离线语音对话、智能音箱
浏览器扩展离线网页摘要 / 翻译
移动 AppiOS/Android 端侧推理
企业边缘工厂 / 医院本地部署

Qwen 3 是国内做这类场景的事实标准。

避坑清单

  • qwen-plus 别名背后型号变化:阿里偶尔切换后台模型,行为可能小幅变化。生产用 qwen3-235b-a22b 这种带版本的具体型号。
  • enable_thinking=True 不要白开:简单任务开了变慢且更贵,按需启用。
  • 多语言不等于翻译:跨语言生成可能掺杂代码切换问题,重要场景仍建议用专业翻译模型。
  • 本地 Ollama 量化精度:默认 q4 量化质量损失明显,重要场景用 q8 或 fp16。
  • qwen-long 价格陷阱:上下文越长单次成本越高,10M 上下文用一次几十块。
  • Batch API 24h 出结果:实时任务别走 batch。

延伸阅读