Llama 4
Meta Llama 4 开源旗舰大模型,完全免费可商用 + 多模态原生支持,HuggingFace 社区生态与微调工具链最完整,权重开放支持 LoRA / 全参微调与私有化部署,适合学术研究、企业自托管与合规敏感场景。
规格
- 厂商
- Meta
- 发布日期
- 2025/7/23
- 类型
- llm
- 上下文窗口
- 256K tokens
- 最大输出
- 16K tokens
- 定价
- 开源免费(自行部署成本仅 GPU)
- API 兼容
- openai
基准测试
✓ 优势
- •完全开源,可商用,无使用限制
- •Scout 版本 10M 超长上下文(实验性)
- •社区生态最强,工具链完善
- •多尺寸可选(8B/70B/405B/Maverick/Scout)
- •支持多语言
⚠ 不足
- •编程能力弱于 Claude/GPT/GLM
- •需要自行部署,运维门槛高
- •10M 上下文为实验性,质量不稳定
- •中文能力不如国产模型
适用场景
概述
Llama 4 是 Meta 于 2025 年 7 月发布的开源旗舰模型系列。最大价值是完全免费可商用——没有 API 费用,只有 GPU 成本。社区生态最强,工具链最完善。
Llama 系列在开源大模型中处于 "事实标准" 地位——Hugging Face 上绝大多数微调模型、量化版本、RAG 教程都基于 Llama。即便实际效果未必是同档最好,"会用 Llama" 是企业 AI 团队的基本素质。
核心能力
完全开源
Llama 4 采用 Meta 自有的开源协议(Llama Community License),允许商用。这意味着:
- 企业可以自由部署,数据不出内网
- 可以对模型进行微调(LoRA / 全量 SFT 都行)
- 可以集成到自己的产品中并商业化
- 无 API 调用费用,无 token 计费
- 输出内容不受任何厂商内容审查策略约束
注意"完全开源"有边界:月活 > 7 亿的产品需要额外申请商用授权(基本只针对 Meta 的直接竞品);普通企业用免费即可。
多尺寸版本
| 版本 | 参数量 | 显存需求 | 适用场景 |
|---|---|---|---|
| Llama 4 8B | 8B | 8-16GB | 个人本地、IoT、浏览器 WASM |
| Llama 4 70B | 70B | 48-128GB | 中小企业部署 |
| Llama 4 405B | 405B | 多卡 H100(>800GB) | 云端高性能 |
| Llama 4 Maverick | 17B 激活 / 400B 总 MoE | 8×H100 | 平衡型 |
| Llama 4 Scout | 17B 激活 / 109B 总 MoE | 4×H100 | 10M 超长上下文(实验性) |
Scout 的 10M 上下文
Llama 4 Scout 号称支持 10M token 上下文——业界最长,远超 Gemini 2.5 Pro(1M)。但 Meta 自己也承认这是"实验性",超过 1M 后质量下降明显,长文 benchmark 上不如 Gemini Pro。当前最实用范围在 256K-512K。
社区生态
Llama 的社区生态是所有开源模型中最强的:
- Ollama / LM Studio 一键本地部署
- Hugging Face 上有数万微调版本(医疗、法律、编程、角色扮演各领域)
- vLLM / TGI / SGLang 高性能推理框架
- LangChain / LlamaIndex / Aider 原生支持
- 大量量化版本(GGUF / AWQ / GPTQ / EXL2 / MLX)
- Apple Silicon 上跑 MLX 版本,M2/M3 Max 跑 70B 完全可行
- 各种 fine-tune 框架(Unsloth / Axolotl / torchtune)默认支持
部署方式
本地(个人开发者)
最简单:
# Ollama 一键
ollama pull llama4:8b
ollama run llama4:8b
# 或者通过 LM Studio 图形界面
企业自部署(vLLM)
vllm serve meta-llama/Llama-4-70B-Instruct \
--tensor-parallel-size 4 \
--max-model-len 131072 \
--enable-prefix-caching \
--quantization awq # 4-bit 量化省显存
OpenAI 兼容 API 自动暴露在 8000 端口,所有支持 OpenAI 的工具直接用。
云上托管(不想自己运维)
- AWS Bedrock:Llama 4 70B / 405B 都有,按 token 计费但比 Claude 便宜
- Groq:Llama 系列的极速 inference 服务,70B 跑 500 tok/s(业界最快)
- Together AI / Replicate:开发者友好定价
- 国内:硅基流动 / 阿里云百炼也有部分 Llama 部署
API 调用示例
任何 OpenAI 兼容客户端都能用:
from openai import OpenAI
# 本地 vLLM / Ollama
client = OpenAI(api_key="dummy", base_url="http://localhost:8000/v1")
# Groq(云端最快)
client = OpenAI(api_key="gsk_...", base_url="https://api.groq.com/openai/v1")
resp = client.chat.completions.create(
model="llama-4-70b",
temperature=0.7,
messages=[{"role": "user", "content": "..."}],
)
定价
模型本身免费。成本仅为 GPU 运行费用:
| 部署方式 | 月成本估算(中等负载) |
|---|---|
| 本地(8B,消费级 GPU) | ¥0(电费) |
| 本地(70B,Mac Studio M3 Max) | ¥0(电费) |
| 云 GPU(70B,A100 80G) | ~¥3,000-5,000/月 |
| 云 GPU(405B,8×H100) | ~¥30,000-50,000/月 |
| Groq 70B API | $0.59/M Input · $0.79/M Output |
| AWS Bedrock 70B | $0.72/M Input · $0.72/M Output |
自部署 ROI 计算
什么时候自部署划算?
- 如果月 token 用量 > 100 亿,且能接受 70B 而非旗舰:自部署 70B 比走 Claude API 便宜 20-50 倍
- 如果月用量 < 1 亿:直接走 DeepSeek-V3 / GLM-5.2 API 更省事
- 如果是数据合规驱动(医疗/金融/政府):自部署是必选项,不算 ROI
微调入口
Llama 4 是微调最方便的开源模型,主流 fine-tune 工具链:
| 工具 | 适合人群 | 特点 |
|---|---|---|
| Unsloth | 个人 / 小团队 | 单卡 7B QLoRA 几小时 |
| Axolotl | 企业 | 配置化、多任务 |
| torchtune | 研究 | PyTorch 官方,灵活 |
| TRL | RLHF / DPO | HuggingFace 出品 |
详见 LoRA 与 Fine-tuning vs RAG——大多数业务问题用 RAG 解决,确实需要"教模型新行为"才上微调。
与其他模型怎么选
| 维度 | Llama 4 | GLM-5.2 | DeepSeek-V3 | Qwen 3 |
|---|---|---|---|---|
| 开源 | ✅ 完全 | 部分(GLM-4 系列开源) | ✅ MoE | ✅ 全系列 |
| 商用 | ✅(< 7 亿 MAU) | 需授权 | ✅ MIT | ✅ |
| 编程 | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ |
| 中文 | ★★★☆☆ | ★★★★★ | ★★★★☆ | ★★★★☆ |
| 多语言 | ★★★★☆ | ★★★☆☆ | ★★★☆☆ | ★★★★★ |
| 社区 | ★★★★★ | ★★★☆☆ | ★★★★☆ | ★★★★★ |
| 端侧模型 | 8B 一档 | 9B 一档 | 蒸馏版 | 0.5B-14B 全覆盖 |
建议:
- 需要私有化部署且中文要求不高 → Llama 4(社区生态最强)
- 中文场景 → GLM-5.2 或 Qwen 3
- 极致低成本(API) → DeepSeek-V3
- 端侧多尺寸 → Qwen 3
适合 / 不适合
✅ 适合:
- 企业私有化部署(数据不出内网)
- 模型微调研究 / 实验
- 海外多语言应用
- 角色扮演 / 内容创作(无审查限制,Hugging Face 上有大量 uncensored fine-tune)
- 学术研究 / 教学
- AI 产品 PoC(先用 Llama 验证,再迁到 API)
❌ 不适合:
- 主力编程(不如 Claude / GLM)
- 纯中文场景(不如国产)
- 团队没运维能力(API 模型更省心)
- 极致质量场景(开源旗舰仍落后闭源旗舰半代)
避坑清单
- 8B / 70B / 405B 跨档差距巨大:用 8B 跑不起来的任务不是 Llama 不行,是参数量不够,先升 70B 再下结论。
- 量化精度不要太低:q4 / Q4_K_M 是底线,q2 / q3 质量崩坏严重;fp16 / Q8_0 才是真实质量。
Llama-4-*-Instructvs base:基础模型(base)不会聊天,必须用-Instruct版本;新手常踩。- Scout 10M 上下文别迷信:超过 1M 后实测召回率断崖,长文场景仍推荐 Gemini 2.5 Pro。
- 中文场景慎用:训练语料中文占比低,中文流畅度不如国产;要在中文上用 Llama,先看有没有中文社区微调版本(如 Llama-4-Chinese)。
- Llama License 不是 MIT:商用前看条款(7 亿 MAU 限制、不得用 Llama 输出训练非 Llama 模型等)。
- Groq 限流严格:免费档 RPM 很低,生产用要付费升级。
延伸阅读
- 本地部署:Ollama / LM Studio
- 微调方法:LoRA
- 何时微调:Fine-tuning vs RAG
- 同档对比:DeepSeek-V3 / Qwen 3
- 推理优化:Token