
Ollama
本地 LLM 的 Daemon——CLI + REST API 后台跑,给 Cursor / Cline / Open WebUI 接本地模型最低门槛
本地 LLM 的 Daemon 事实标准,CLI / Modelfile / REST API 三件套配合最广泛。GUI 偏好用户走 LM Studio;多用户并发生产用 vLLM;其他场景几乎默认 Ollama。
TL;DR
Ollama 是本地 LLM 的 Daemon 事实标准——后台跑、暴露 REST API(11434)+ CLI、Modelfile 配置、GGUF 一站式。MIT 开源,跨 Win / Mac / Linux。0.19+ 起 Mac M 系列底层切 MLX 推理。模型库覆盖 Llama / Qwen / DeepSeek / Gemma / Mistral 等主流开源模型,ollama pull 一键拉。
适合:给 Cursor / Cline / Continue / Open WebUI 接本地 OpenAI 兼容 endpoint、个人 / 评估 / 原型、嵌入应用、自动化脚本。不适合:GUI 偏好用户(用 LM Studio)、多用户并发生产服务(用 vLLM)、模型浏览 / 调参界面(用 LM Studio)。
核心能力
- 后台 Daemon:开机自启,应用调用零延迟
- CLI:
ollama pull / run / list / show / create / serve - Modelfile:类 Dockerfile 注册任意 GGUF,配 SYSTEM / PARAMETER / TEMPLATE
- OpenAI 兼容 API:
http://localhost:11434/v1/chat/completions - 原生 API:
/api/chat、/api/generate、/api/embeddings - 模型库:官方注册表内置 Llama / Qwen / DeepSeek / Gemma / Mistral / GPT-OSS 等
- MLX 加速(Mac):0.19+ 起 M 系列自动用 MLX
- 量化:默认 Q4_K_M、支持 Q5 / Q8 / FP16
- 跨平台:Win / Mac / Linux 安装包,Docker 官方镜像
价格
完全免费、MIT 开源、商用免费。
实测(M2 Pro + Qwen3-Coder-7B Q4)
亮点:
ollama run qwen3-coder:7b一行起飞,3 秒进交互- REST API 配 Cursor / Cline / Continue 几乎全工具开箱即用
- Modelfile 写自定义编码助手(low temperature + system prompt + 16K context)几分钟搞定
- 多模型并存,按需切换,内存占用合理
- Mac M 系列 MLX 后比旧 GGUF 模式快显著
踩坑:
- 默认
num_ctx偏小(2048),跑长上下文要在 Modelfile 加PARAMETER num_ctx 16384 - 模型默认走 0.0.0.0:11434 ↔ Docker 容器互访要
--add-host=host.docker.internal:host-gateway - 国内
ollama.com/library下载偶有慢,可手动 HF 下 GGUF + Modelfile 自建 - 多用户并发吞吐显著低于 vLLM
- 没有 GUI,模型浏览 / 参数面板要走 LM Studio / Open WebUI 配合
上手
curl -fsSL https://ollama.ai/install.sh | sh(Mac / Linux);Windows wingetollama pull qwen3-coder:7b(按需换模型)ollama run qwen3-coder:7b直接聊- 应用接入:baseURL =
http://localhost:11434/v1 - 自定义:写 Modelfile →
ollama create my-coder -f Modelfile - 进阶:装 Open WebUI 做前端 / 多人共享
对比
| 维度 | Ollama | LM Studio | vLLM | llama.cpp |
|---|---|---|---|---|
| 形态 | CLI + Daemon | GUI + Headless | Python Server | C++ 二进制 |
| 上手 | 极低 | 极低 | 中 | 高 |
| 模型浏览 | CLI | ✅ GUI | 无 | 无 |
| OpenAI 兼容 | ✅ :11434 | ✅ :1234 | ✅ | ✅ |
| 多用户吞吐 | 弱(~40 tok/s) | 中(50–90) | 强(800–12500) | 中 |
| MLX (Mac) | ✅ 0.19+ | ✅ | 部分 | – |
| 开源 | MIT | 闭源 | Apache 2.0 | MIT |
避坑
- num_ctx 一定要设:默认 2K 太小,跑代码 / 长文档要 16K+
- Modelfile 模板别漏 TEMPLATE:错的 chat template 会让模型输出乱码 / 不停
- KV cache 爆表 = 速度悬崖:32B 模型 32K 上下文,KV cache 可能 12+ GB,超显存自动 offload 慢 10×
- 不要 0.0.0.0 直接对公网:默认无鉴权,对外暴露走反代 + Bearer / mTLS
- Mac 让它自动用 MLX:升 0.19+;不要手动强制 GGUF + Metal
适合 / 不适合
- ✅ 应用 / IDE 接本地模型(Cursor / Cline / Continue)
- ✅ 个人 / 评估 / 脚本自动化
- ✅ Modelfile 自定义系统 prompt + 参数
- ✅ Mac M 系列 MLX 用户
- ❌ 多用户并发生产服务(用 vLLM)
- ❌ GUI 调参 / 模型浏览(配 LM Studio / Open WebUI)
- ❌ 极致单卡吞吐研究(直接 llama.cpp / vLLM)
相关阅读
来源
- Markaicode — Import GGUF Models into Ollama 2026(2026-05-15)https://markaicode.com/import-gguf-models-ollama-guide
- ComputingForGeeks — Ollama Models Cheat Sheet 2026 https://computingforgeeks.com/ollama-models-cheat-sheet
- Codersera — Ollama vs LM Studio vs vLLM vs llama.cpp vs MLX 2026 https://codersera.com/blog/ollama-vs-lm-studio-vs-vllm-vs-llama-cpp-vs-mlx-2026/
| 计划 | 价格 | 限制 | 国内支付 | 备注 |
|---|---|---|---|---|
| 开源版 | 免费 | — | — |
和 LM Studio 怎么选?
Ollama = Daemon + CLI,开机自启在 11434 端口跑,应用 / IDE 调它最方便。LM Studio = GUI,模型浏览 / 调参 / 聊天体验更好。两者底层都基于 llama.cpp,Mac M 系列上都已切 MLX。
Modelfile 是什么?
类 Dockerfile 的模型配置:`FROM ./xxx.gguf` + PARAMETER / TEMPLATE / SYSTEM。把任意 GGUF 注册成本地模型供调用。`ollama create my-model -f Modelfile`。
OpenAI 兼容端点?
`http://localhost:11434/v1`。任何 OpenAI SDK 改 baseURL 即用。也可走原生 `/api/chat`、`/api/generate`。
并发能力?
单用户原型场景顺滑(~40 tok/s peak),多用户并发明显不如 vLLM(vLLM 的 PagedAttention + 连续批处理高 16–20×)。生产并发选 vLLM。