Name: Llama 4
Brand: Meta

概述

Llama 4 是 Meta 于 2025 年 7 月发布的开源旗舰模型系列。最大价值是完全免费可商用——没有 API 费用，只有 GPU 成本。社区生态最强，工具链最完善。

Llama 系列在开源大模型中处于 "事实标准" 地位——Hugging Face 上绝大多数微调模型、量化版本、RAG 教程都基于 Llama。即便实际效果未必是同档最好，"会用 Llama" 是企业 AI 团队的基本素质。

核心能力

完全开源

Llama 4 采用 Meta 自有的开源协议（Llama Community License），允许商用。这意味着：

企业可以自由部署，数据不出内网
可以对模型进行微调（LoRA / 全量 SFT 都行）
可以集成到自己的产品中并商业化
无 API 调用费用，无 token 计费
输出内容不受任何厂商内容审查策略约束

注意"完全开源"有边界：月活 > 7 亿的产品需要额外申请商用授权（基本只针对 Meta 的直接竞品）；普通企业用免费即可。

多尺寸版本

版本	参数量	显存需求	适用场景
Llama 4 8B	8B	8-16GB	个人本地、IoT、浏览器 WASM
Llama 4 70B	70B	48-128GB	中小企业部署
Llama 4 405B	405B	多卡 H100（>800GB）	云端高性能
Llama 4 Maverick	17B 激活 / 400B 总 MoE	8×H100	平衡型
Llama 4 Scout	17B 激活 / 109B 总 MoE	4×H100	10M 超长上下文（实验性）

Scout 的 10M 上下文

Llama 4 Scout 号称支持 10M token 上下文——业界最长，远超 Gemini 2.5 Pro（1M）。但 Meta 自己也承认这是"实验性"，超过 1M 后质量下降明显，长文 benchmark 上不如 Gemini Pro。当前最实用范围在 256K-512K。

社区生态

Llama 的社区生态是所有开源模型中最强的：

Ollama / LM Studio 一键本地部署
Hugging Face 上有数万微调版本（医疗、法律、编程、角色扮演各领域）
vLLM / TGI / SGLang 高性能推理框架
LangChain / LlamaIndex / Aider 原生支持
大量量化版本（GGUF / AWQ / GPTQ / EXL2 / MLX）
Apple Silicon 上跑 MLX 版本，M2/M3 Max 跑 70B 完全可行
各种 fine-tune 框架（Unsloth / Axolotl / torchtune）默认支持

部署方式

本地（个人开发者）

最简单：

# Ollama 一键
ollama pull llama4:8b
ollama run llama4:8b

# 或者通过 LM Studio 图形界面

企业自部署（vLLM）

vllm serve meta-llama/Llama-4-70B-Instruct \
    --tensor-parallel-size 4 \
    --max-model-len 131072 \
    --enable-prefix-caching \
    --quantization awq      # 4-bit 量化省显存

OpenAI 兼容 API 自动暴露在 8000 端口，所有支持 OpenAI 的工具直接用。

云上托管（不想自己运维）

AWS Bedrock：Llama 4 70B / 405B 都有，按 token 计费但比 Claude 便宜
Groq：Llama 系列的极速 inference 服务，70B 跑 500 tok/s（业界最快）
Together AI / Replicate：开发者友好定价
国内：硅基流动 / 阿里云百炼也有部分 Llama 部署

API 调用示例

任何 OpenAI 兼容客户端都能用：

from openai import OpenAI

# 本地 vLLM / Ollama
client = OpenAI(api_key="dummy", base_url="http://localhost:8000/v1")

# Groq（云端最快）
client = OpenAI(api_key="gsk_...", base_url="https://api.groq.com/openai/v1")

resp = client.chat.completions.create(
    model="llama-4-70b",
    temperature=0.7,
    messages=[{"role": "user", "content": "..."}],
)

定价

模型本身免费。成本仅为 GPU 运行费用：

部署方式	月成本估算（中等负载）
本地（8B，消费级 GPU）	¥0（电费）
本地（70B，Mac Studio M3 Max）	¥0（电费）
云 GPU（70B，A100 80G）	~¥3,000-5,000/月
云 GPU（405B，8×H100）	~¥30,000-50,000/月
Groq 70B API	$0.59/M Input · $0.79/M Output
AWS Bedrock 70B	$0.72/M Input · $0.72/M Output

自部署 ROI 计算

什么时候自部署划算？

如果月 token 用量 > 100 亿，且能接受 70B 而非旗舰：自部署 70B 比走 Claude API 便宜 20-50 倍
如果月用量 < 1 亿：直接走 DeepSeek-V3 / GLM-5.2 API 更省事
如果是数据合规驱动（医疗/金融/政府）：自部署是必选项，不算 ROI

微调入口

Llama 4 是微调最方便的开源模型，主流 fine-tune 工具链：

工具	适合人群	特点
Unsloth	个人 / 小团队	单卡 7B QLoRA 几小时
Axolotl	企业	配置化、多任务
torchtune	研究	PyTorch 官方，灵活
TRL	RLHF / DPO	HuggingFace 出品

详见 LoRA 与 Fine-tuning vs RAG——大多数业务问题用 RAG 解决，确实需要"教模型新行为"才上微调。

与其他模型怎么选

维度	Llama 4	GLM-5.2	DeepSeek-V3	Qwen 3
开源	✅ 完全	部分（GLM-4 系列开源）	✅ MoE	✅ 全系列
商用	✅（< 7 亿 MAU）	需授权	✅ MIT	✅
编程	★★★☆☆	★★★★☆	★★★★☆	★★★☆☆
中文	★★★☆☆	★★★★★	★★★★☆	★★★★☆
多语言	★★★★☆	★★★☆☆	★★★☆☆	★★★★★
社区	★★★★★	★★★☆☆	★★★★☆	★★★★★
端侧模型	8B 一档	9B 一档	蒸馏版	0.5B-14B 全覆盖

建议：

需要私有化部署且中文要求不高 → Llama 4（社区生态最强）
中文场景 → GLM-5.2 或 Qwen 3
极致低成本（API） → DeepSeek-V3
端侧多尺寸 → Qwen 3

适合 / 不适合

✅ 适合：

企业私有化部署（数据不出内网）
模型微调研究 / 实验
海外多语言应用
角色扮演 / 内容创作（无审查限制，Hugging Face 上有大量 uncensored fine-tune）
学术研究 / 教学
AI 产品 PoC（先用 Llama 验证，再迁到 API）

❌ 不适合：

主力编程（不如 Claude / GLM）
纯中文场景（不如国产）
团队没运维能力（API 模型更省心）
极致质量场景（开源旗舰仍落后闭源旗舰半代）

避坑清单

8B / 70B / 405B 跨档差距巨大：用 8B 跑不起来的任务不是 Llama 不行，是参数量不够，先升 70B 再下结论。
量化精度不要太低：q4 / Q4_K_M 是底线，q2 / q3 质量崩坏严重；fp16 / Q8_0 才是真实质量。
Llama-4-*-Instruct vs base：基础模型（base）不会聊天，必须用 -Instruct 版本；新手常踩。
Scout 10M 上下文别迷信：超过 1M 后实测召回率断崖，长文场景仍推荐 Gemini 2.5 Pro。
中文场景慎用：训练语料中文占比低，中文流畅度不如国产；要在中文上用 Llama，先看有没有中文社区微调版本（如 Llama-4-Chinese）。
Llama License 不是 MIT：商用前看条款（7 亿 MAU 限制、不得用 Llama 输出训练非 Llama 模型等）。
Groq 限流严格：免费档 RPM 很低，生产用要付费升级。

Llama 4

规格

基准测试

✓ 优势

⚠ 不足

适用场景

概述