Qwen 3
阿里通义千问 Qwen 3 系列开源大模型,0.5B 至 235B 全尺寸覆盖,端侧小模型性能业界领先,多语言(119 种)能力广泛,国内可直连 + 慷慨免费 API 额度,适合从边缘设备到云端 GPU 的全栈部署。
规格
- 厂商
- 阿里巴巴
- 发布日期
- 2025/9/25
- 类型
- llm
- 上下文窗口
- 131K tokens
- 最大输出
- 16K tokens
- 定价
- Input ¥0.8/M · Output ¥2/M(免费 API 额度)
- API 兼容
- openai
基准测试
✓ 优势
- •开源全系列(0.5B 到 235B),覆盖端侧到云端
- •多语言能力强,中英日韩阿法德表现均衡
- •免费 API 额度大方,阿里云百炼平台可直接调用
- •端侧小模型(7B/14B)性能领先,适合本地部署
- •支持长文档理解和代码生成
⚠ 不足
- •编程实操不如 Claude Sonnet 4 / GLM-5.2
- •Agent 工具调用生态不如 Anthropic 成熟
- •16K 输出窗口偏短
- •多步推理稳定性一般
适用场景
概述
Qwen 3 是阿里巴巴于 2025 年 9 月发布的第三代通义千问模型系列,覆盖从 0.5B 到 235B 的全尺寸。最大特色是端侧小模型(7B/14B)在同参数级别中性能领先,适合本地部署和移动端使用。
核心能力
全尺寸开源
| 参数量 | 适用场景 | 显存需求 |
|---|---|---|
| 0.5B / 1.5B | 手机端、IoT、浏览器 WASM | < 2GB |
| 7B / 14B | 本地开发、个人使用 | 8-16GB |
| 32B / 72B | 企业部署 | 48-128GB |
| Qwen3-MoE-A14B-72B | 性价比之选 | 64-96GB |
| 235B | 云端 API | 多卡 H100 |
端侧 7B 模型在 MMLU 上达到 75%+,足以胜任日常对话、简单编程、文档摘要等任务。这是 Qwen 系列最大的差异化优势——你能拿 7B 跑出接近 GPT-3.5 体验的本地模型,对隐私敏感的个人和企业是刚需。
Hybrid Thinking(混合推理模式)
Qwen 3 引入了可切换的推理模式——同一个模型,加 enable_thinking=True 就变推理模型:
resp = client.chat.completions.create(
model="qwen3-235b-a22b",
messages=[{"role": "user", "content": "证明..."}],
extra_body={
"enable_thinking": True, # 开 thinking
},
)
# resp.choices[0].message.reasoning_content 是思维链
# resp.choices[0].message.content 是最终答案
对比 DeepSeek-R1 那种"必须用单独模型",Qwen 3 一个模型双模式更省事——简单任务关 thinking 快、复杂题开 thinking 强。
多语言
中英日韩阿法德七种语言均衡发展,不像某些模型偏科中文或英文。对于需要多语言支持的应用(跨境电商、国际客服),Qwen 3 是理想选择。覆盖语种数 119 种,业界最广。
阿里云生态
通过阿里云百炼平台可以直接调用,与其他阿里云服务(OSS、RDS、函数计算)集成方便。免费额度:个人开发者每月 200 万 token。
API 调用示例
阿里云百炼平台
from openai import OpenAI
client = OpenAI(
api_key="sk-...",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
resp = client.chat.completions.create(
model="qwen-plus", # 旗舰别名(背后是 Qwen3-235B)
temperature=0.3,
messages=[
{"role": "user", "content": "..."},
],
)
本地 Ollama 部署(无需联网)
# 一键拉取 7B 模型,笔记本能跑
ollama pull qwen3:7b
ollama run qwen3:7b
然后通过 OpenAI 兼容 API 接入任何工具:
client = OpenAI(
api_key="ollama",
base_url="http://localhost:11434/v1",
)
resp = client.chat.completions.create(model="qwen3:7b", messages=[...])
vLLM 高性能服务
企业部署推荐 vLLM:
vllm serve Qwen/Qwen3-72B \
--tensor-parallel-size 4 \
--max-model-len 131072 \
--enable-prefix-caching # 开 prompt cache
实测 4×A100 跑 72B 单并发 30 tok/s,10 并发总吞吐 200+ tok/s——比走 API 长期看更省钱。
模型家族
| 别名(百炼) | 实际型号 | Input | Output | 上下文 |
|---|---|---|---|---|
| qwen-turbo | Qwen3-30B-MoE | ¥0.3/M | ¥0.6/M | 128K |
| qwen-plus | Qwen3-72B / 235B | ¥0.8/M | ¥2/M | 128K |
| qwen-max | Qwen3-Max | ¥2.4/M | ¥9.6/M | 32K |
| qwen-long | Qwen-Long | ¥0.5/M | ¥2/M | 10M |
| qwen-vl-plus | Qwen3-VL | ¥1.5/M | ¥4.5/M | 32K |
qwen-long 上下文 1000 万 token——业界最长,专门做超长文档场景。
定价
| 项目 | 价格 |
|---|---|
| Input (qwen-plus) | ¥0.8 / 百万 token |
| Output (qwen-plus) | ¥2 / 百万 token |
| 免费额度 | 每月 200 万 token |
| Batch API | -50% |
是 DeepSeek-V3 之后第二便宜的选项。
关键参数
| 参数 | 推荐 | 说明 |
|---|---|---|
temperature | 0.7(默认) | 通用 |
temperature | 0 | 工具调用 / 代码 |
top_p | 0.8 | 默认 |
max_tokens | 显式 | 默认 1500 太短 |
enable_thinking | False / True | 是否开推理模式 |
repetition_penalty | 1.05 | 防止重复 |
与同档国产模型怎么选
| 维度 | Qwen 3 | GLM-5.2 | DeepSeek-V3 | Kimi K2 |
|---|---|---|---|---|
| 编程 | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
| 多语言 | ★★★★★ | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ |
| 端侧部署 | ★★★★★ | ★★★☆☆ | ★☆☆☆☆ | ❌ |
| Hybrid Thinking | ✅ | ❌ | 分别用 R1 | ❌ |
| 价格 Input | ¥0.8/M | ¥2/M | ¥1/M | ¥4/M |
| 开源 | ✅ 全系列 | 部分 | ✅ MoE | ❌ |
| 国内云生态 | 阿里云全套 | 智谱独立 | 独立 | Moonshot |
建议:
- 本地部署 / 端侧 → Qwen 3(7B 是同档最强)
- 多语言应用 → Qwen 3
- 主力编程 → GLM-5.2
- 极致低成本 → DeepSeek-V3
- 长文档分析 → Kimi K2 / qwen-long
端侧场景的真实价值
7B 模型本地能跑意味着:
| 场景 | 价值 |
|---|---|
| 个人助手 | 笔记/邮件/搜索本地处理,数据不出本机 |
| IoT 设备 | 离线语音对话、智能音箱 |
| 浏览器扩展 | 离线网页摘要 / 翻译 |
| 移动 App | iOS/Android 端侧推理 |
| 企业边缘 | 工厂 / 医院本地部署 |
Qwen 3 是国内做这类场景的事实标准。
避坑清单
qwen-plus别名背后型号变化:阿里偶尔切换后台模型,行为可能小幅变化。生产用qwen3-235b-a22b这种带版本的具体型号。enable_thinking=True不要白开:简单任务开了变慢且更贵,按需启用。- 多语言不等于翻译:跨语言生成可能掺杂代码切换问题,重要场景仍建议用专业翻译模型。
- 本地 Ollama 量化精度:默认 q4 量化质量损失明显,重要场景用 q8 或 fp16。
qwen-long价格陷阱:上下文越长单次成本越高,10M 上下文用一次几十块。- Batch API 24h 出结果:实时任务别走 batch。
延伸阅读
- 本地部署:LoRA(在 Qwen 上微调)
- 推理模式原理:Temperature 与 Top-P
- 同档对比:DeepSeek-V3 / GLM-5.2
- 多语言场景:Embedding