和 LM Studio 怎么选？

Ollama = Daemon + CLI，开机自启在 11434 端口跑，应用 / IDE 调它最方便。LM Studio = GUI，模型浏览 / 调参 / 聊天体验更好。两者底层都基于 llama.cpp，Mac M 系列上都已切 MLX。

Modelfile 是什么？

类 Dockerfile 的模型配置：`FROM ./xxx.gguf` + PARAMETER / TEMPLATE / SYSTEM。把任意 GGUF 注册成本地模型供调用。`ollama create my-model -f Modelfile`。

OpenAI 兼容端点？

`http://localhost:11434/v1`。任何 OpenAI SDK 改 baseURL 即用。也可走原生 `/api/chat`、`/api/generate`。

单用户原型场景顺滑（~40 tok/s peak），多用户并发明显不如 vLLM（vLLM 的 PagedAttention + 连续批处理高 16–20×）。生产并发选 vLLM。

Ollama — AIHO

Name: Ollama
Rating: 4.2

TL;DR

Ollama 是本地 LLM 的 Daemon 事实标准——后台跑、暴露 REST API（11434）+ CLI、Modelfile 配置、GGUF 一站式。MIT 开源，跨 Win / Mac / Linux。0.19+ 起 Mac M 系列底层切 MLX 推理。模型库覆盖 Llama / Qwen / DeepSeek / Gemma / Mistral 等主流开源模型，ollama pull 一键拉。

适合：给 Cursor / Cline / Continue / Open WebUI 接本地 OpenAI 兼容 endpoint、个人 / 评估 / 原型、嵌入应用、自动化脚本。不适合：GUI 偏好用户（用 LM Studio）、多用户并发生产服务（用 vLLM）、模型浏览 / 调参界面（用 LM Studio）。

核心能力

后台 Daemon：开机自启，应用调用零延迟
CLI：ollama pull / run / list / show / create / serve
Modelfile：类 Dockerfile 注册任意 GGUF，配 SYSTEM / PARAMETER / TEMPLATE
OpenAI 兼容 API：http://localhost:11434/v1/chat/completions
原生 API：/api/chat、/api/generate、/api/embeddings
模型库：官方注册表内置 Llama / Qwen / DeepSeek / Gemma / Mistral / GPT-OSS 等
MLX 加速（Mac）：0.19+ 起 M 系列自动用 MLX
量化：默认 Q4_K_M、支持 Q5 / Q8 / FP16
跨平台：Win / Mac / Linux 安装包，Docker 官方镜像

价格

完全免费、MIT 开源、商用免费。

实测（M2 Pro + Qwen3-Coder-7B Q4）

亮点：

ollama run qwen3-coder:7b 一行起飞，3 秒进交互
REST API 配 Cursor / Cline / Continue 几乎全工具开箱即用
Modelfile 写自定义编码助手（low temperature + system prompt + 16K context）几分钟搞定
多模型并存，按需切换，内存占用合理
Mac M 系列 MLX 后比旧 GGUF 模式快显著

踩坑：

默认 num_ctx 偏小（2048），跑长上下文要在 Modelfile 加 PARAMETER num_ctx 16384
模型默认走 0.0.0.0:11434 ↔ Docker 容器互访要 --add-host=host.docker.internal:host-gateway
国内 ollama.com/library 下载偶有慢，可手动 HF 下 GGUF + Modelfile 自建
多用户并发吞吐显著低于 vLLM
没有 GUI，模型浏览 / 参数面板要走 LM Studio / Open WebUI 配合

上手

curl -fsSL https://ollama.ai/install.sh | sh（Mac / Linux）；Windows winget
ollama pull qwen3-coder:7b（按需换模型）
ollama run qwen3-coder:7b 直接聊
应用接入：baseURL = http://localhost:11434/v1
自定义：写 Modelfile → ollama create my-coder -f Modelfile
进阶：装 Open WebUI 做前端 / 多人共享

对比

维度	Ollama	LM Studio	vLLM	llama.cpp
形态	CLI + Daemon	GUI + Headless	Python Server	C++ 二进制
上手	极低	极低	中	高
模型浏览	CLI	✅ GUI	无	无
OpenAI 兼容	✅ :11434	✅ :1234	✅	✅
多用户吞吐	弱（~40 tok/s）	中（50–90）	强（800–12500）	中
MLX (Mac)	✅ 0.19+	✅	部分	–
开源	MIT	闭源	Apache 2.0	MIT

避坑

num_ctx 一定要设：默认 2K 太小，跑代码 / 长文档要 16K+
Modelfile 模板别漏 TEMPLATE：错的 chat template 会让模型输出乱码 / 不停
KV cache 爆表 = 速度悬崖：32B 模型 32K 上下文，KV cache 可能 12+ GB，超显存自动 offload 慢 10×
不要 0.0.0.0 直接对公网：默认无鉴权，对外暴露走反代 + Bearer / mTLS
Mac 让它自动用 MLX：升 0.19+；不要手动强制 GGUF + Metal

适合 / 不适合

✅ 应用 / IDE 接本地模型（Cursor / Cline / Continue）
✅ 个人 / 评估 / 脚本自动化
✅ Modelfile 自定义系统 prompt + 参数
✅ Mac M 系列 MLX 用户
❌ 多用户并发生产服务（用 vLLM）
❌ GUI 调参 / 模型浏览（配 LM Studio / Open WebUI）
❌ 极致单卡吞吐研究（直接 llama.cpp / vLLM）

来源

Markaicode — Import GGUF Models into Ollama 2026（2026-05-15）https://markaicode.com/import-gguf-models-ollama-guide
ComputingForGeeks — Ollama Models Cheat Sheet 2026 https://computingforgeeks.com/ollama-models-cheat-sheet
Codersera — Ollama vs LM Studio vs vLLM vs llama.cpp vs MLX 2026 https://codersera.com/blog/ollama-vs-lm-studio-vs-vllm-vs-llama-cpp-vs-mlx-2026/