Name: Qwen 3
Brand: 阿里巴巴

概述

Qwen 3 是阿里巴巴于 2025 年 9 月发布的第三代通义千问模型系列，覆盖从 0.5B 到 235B 的全尺寸。最大特色是端侧小模型（7B/14B）在同参数级别中性能领先，适合本地部署和移动端使用。

核心能力

全尺寸开源

参数量	适用场景	显存需求
0.5B / 1.5B	手机端、IoT、浏览器 WASM	< 2GB
7B / 14B	本地开发、个人使用	8-16GB
32B / 72B	企业部署	48-128GB
Qwen3-MoE-A14B-72B	性价比之选	64-96GB
235B	云端 API	多卡 H100

端侧 7B 模型在 MMLU 上达到 75%+，足以胜任日常对话、简单编程、文档摘要等任务。这是 Qwen 系列最大的差异化优势——你能拿 7B 跑出接近 GPT-3.5 体验的本地模型，对隐私敏感的个人和企业是刚需。

Hybrid Thinking（混合推理模式）

Qwen 3 引入了可切换的推理模式——同一个模型，加 enable_thinking=True 就变推理模型：

resp = client.chat.completions.create(
    model="qwen3-235b-a22b",
    messages=[{"role": "user", "content": "证明..."}],
    extra_body={
        "enable_thinking": True,    # 开 thinking
    },
)
# resp.choices[0].message.reasoning_content 是思维链
# resp.choices[0].message.content 是最终答案

对比 DeepSeek-R1 那种"必须用单独模型"，Qwen 3 一个模型双模式更省事——简单任务关 thinking 快、复杂题开 thinking 强。

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen-plus",       # 旗舰别名（背后是 Qwen3-235B）
    temperature=0.3,
    messages=[
        {"role": "user", "content": "..."},
    ],
)

本地 Ollama 部署（无需联网）

# 一键拉取 7B 模型，笔记本能跑
ollama pull qwen3:7b
ollama run qwen3:7b

然后通过 OpenAI 兼容 API 接入任何工具：

client = OpenAI(
    api_key="ollama",
    base_url="http://localhost:11434/v1",
)
resp = client.chat.completions.create(model="qwen3:7b", messages=[...])

vLLM 高性能服务

企业部署推荐 vLLM：

vllm serve Qwen/Qwen3-72B \
    --tensor-parallel-size 4 \
    --max-model-len 131072 \
    --enable-prefix-caching   # 开 prompt cache

实测 4×A100 跑 72B 单并发 30 tok/s，10 并发总吞吐 200+ tok/s——比走 API 长期看更省钱。

模型家族

别名（百炼）	实际型号	Input	Output	上下文
qwen-turbo	Qwen3-30B-MoE	¥0.3/M	¥0.6/M	128K
qwen-plus	Qwen3-72B / 235B	¥0.8/M	¥2/M	128K
qwen-max	Qwen3-Max	¥2.4/M	¥9.6/M	32K
qwen-long	Qwen-Long	¥0.5/M	¥2/M	10M
qwen-vl-plus	Qwen3-VL	¥1.5/M	¥4.5/M	32K

qwen-long 上下文 1000 万 token——业界最长，专门做超长文档场景。

定价

项目	价格
Input (qwen-plus)	¥0.8 / 百万 token
Output (qwen-plus)	¥2 / 百万 token
免费额度	每月 200 万 token
Batch API	-50%

是 DeepSeek-V3 之后第二便宜的选项。

关键参数

参数	推荐	说明
`temperature`	0.7（默认）	通用
`temperature`	0	工具调用 / 代码
`top_p`	0.8	默认
`max_tokens`	显式	默认 1500 太短
`enable_thinking`	False / True	是否开推理模式
`repetition_penalty`	1.05	防止重复

与同档国产模型怎么选

维度	Qwen 3	GLM-5.2	DeepSeek-V3	Kimi K2
编程	★★★☆☆	★★★★☆	★★★★☆	★★★☆☆
多语言	★★★★★	★★★☆☆	★★★☆☆	★★★☆☆
端侧部署	★★★★★	★★★☆☆	★☆☆☆☆	❌
Hybrid Thinking	✅	❌	分别用 R1	❌
价格 Input	¥0.8/M	¥2/M	¥1/M	¥4/M
开源	✅ 全系列	部分	✅ MoE	❌
国内云生态	阿里云全套	智谱独立	独立	Moonshot

建议：

本地部署 / 端侧 → Qwen 3（7B 是同档最强）
多语言应用 → Qwen 3
主力编程 → GLM-5.2
极致低成本 → DeepSeek-V3
长文档分析 → Kimi K2 / qwen-long

端侧场景的真实价值

7B 模型本地能跑意味着：

场景	价值
个人助手	笔记/邮件/搜索本地处理，数据不出本机
IoT 设备	离线语音对话、智能音箱
浏览器扩展	离线网页摘要 / 翻译
移动 App	iOS/Android 端侧推理
企业边缘	工厂 / 医院本地部署

Qwen 3 是国内做这类场景的事实标准。

避坑清单

qwen-plus 别名背后型号变化：阿里偶尔切换后台模型，行为可能小幅变化。生产用 qwen3-235b-a22b 这种带版本的具体型号。
enable_thinking=True 不要白开：简单任务开了变慢且更贵，按需启用。
多语言不等于翻译：跨语言生成可能掺杂代码切换问题，重要场景仍建议用专业翻译模型。
本地 Ollama 量化精度：默认 q4 量化质量损失明显，重要场景用 q8 或 fp16。
qwen-long 价格陷阱：上下文越长单次成本越高，10M 上下文用一次几十块。
Batch API 24h 出结果：实时任务别走 batch。

Qwen 3

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述

核心能力

全尺寸开源

Hybrid Thinking（混合推理模式）

多语言

阿里云生态

API 调用示例

阿里云百炼平台