跳到主内容
AIHO 2026 全新改版上线
TOOL · CODING #05/05本地化
Ollama

Ollama

本地 LLM 的 Daemon——CLI + REST API 后台跑,给 Cursor / Cline / Open WebUI 接本地模型最低门槛

localdaemonclirest-apimodelfileggufmlxopenai-compatibleopen-source
访问官网
能力
4
易用
4
性价比
5
中文
3
稳定
5
编辑结论 综合4.2/ 5

本地 LLM 的 Daemon 事实标准,CLI / Modelfile / REST API 三件套配合最广泛。GUI 偏好用户走 LM Studio;多用户并发生产用 vLLM;其他场景几乎默认 Ollama。

01 / 03深度解读

TL;DR

Ollama 是本地 LLM 的 Daemon 事实标准——后台跑、暴露 REST API(11434)+ CLI、Modelfile 配置、GGUF 一站式。MIT 开源,跨 Win / Mac / Linux。0.19+ 起 Mac M 系列底层切 MLX 推理。模型库覆盖 Llama / Qwen / DeepSeek / Gemma / Mistral 等主流开源模型,ollama pull 一键拉。

适合:给 Cursor / Cline / Continue / Open WebUI 接本地 OpenAI 兼容 endpoint、个人 / 评估 / 原型、嵌入应用、自动化脚本。不适合:GUI 偏好用户(用 LM Studio)、多用户并发生产服务(用 vLLM)、模型浏览 / 调参界面(用 LM Studio)。

核心能力

  • 后台 Daemon:开机自启,应用调用零延迟
  • CLIollama pull / run / list / show / create / serve
  • Modelfile:类 Dockerfile 注册任意 GGUF,配 SYSTEM / PARAMETER / TEMPLATE
  • OpenAI 兼容 APIhttp://localhost:11434/v1/chat/completions
  • 原生 API/api/chat/api/generate/api/embeddings
  • 模型库:官方注册表内置 Llama / Qwen / DeepSeek / Gemma / Mistral / GPT-OSS 等
  • MLX 加速(Mac):0.19+ 起 M 系列自动用 MLX
  • 量化:默认 Q4_K_M、支持 Q5 / Q8 / FP16
  • 跨平台:Win / Mac / Linux 安装包,Docker 官方镜像

价格

完全免费、MIT 开源、商用免费。

实测(M2 Pro + Qwen3-Coder-7B Q4)

亮点:

  • ollama run qwen3-coder:7b 一行起飞,3 秒进交互
  • REST API 配 Cursor / Cline / Continue 几乎全工具开箱即用
  • Modelfile 写自定义编码助手(low temperature + system prompt + 16K context)几分钟搞定
  • 多模型并存,按需切换,内存占用合理
  • Mac M 系列 MLX 后比旧 GGUF 模式快显著

踩坑:

  • 默认 num_ctx 偏小(2048),跑长上下文要在 Modelfile 加 PARAMETER num_ctx 16384
  • 模型默认走 0.0.0.0:11434 ↔ Docker 容器互访要 --add-host=host.docker.internal:host-gateway
  • 国内 ollama.com/library 下载偶有慢,可手动 HF 下 GGUF + Modelfile 自建
  • 多用户并发吞吐显著低于 vLLM
  • 没有 GUI,模型浏览 / 参数面板要走 LM Studio / Open WebUI 配合

上手

  1. curl -fsSL https://ollama.ai/install.sh | sh(Mac / Linux);Windows winget
  2. ollama pull qwen3-coder:7b(按需换模型)
  3. ollama run qwen3-coder:7b 直接聊
  4. 应用接入:baseURL = http://localhost:11434/v1
  5. 自定义:写 Modelfile → ollama create my-coder -f Modelfile
  6. 进阶:装 Open WebUI 做前端 / 多人共享

对比

维度OllamaLM StudiovLLMllama.cpp
形态CLI + DaemonGUI + HeadlessPython ServerC++ 二进制
上手极低极低
模型浏览CLI✅ GUI
OpenAI 兼容✅ :11434✅ :1234
多用户吞吐弱(~40 tok/s)中(50–90)强(800–12500)
MLX (Mac)✅ 0.19+部分
开源MIT闭源Apache 2.0MIT

避坑

  • num_ctx 一定要设:默认 2K 太小,跑代码 / 长文档要 16K+
  • Modelfile 模板别漏 TEMPLATE:错的 chat template 会让模型输出乱码 / 不停
  • KV cache 爆表 = 速度悬崖:32B 模型 32K 上下文,KV cache 可能 12+ GB,超显存自动 offload 慢 10×
  • 不要 0.0.0.0 直接对公网:默认无鉴权,对外暴露走反代 + Bearer / mTLS
  • Mac 让它自动用 MLX:升 0.19+;不要手动强制 GGUF + Metal

适合 / 不适合

  • ✅ 应用 / IDE 接本地模型(Cursor / Cline / Continue)
  • ✅ 个人 / 评估 / 脚本自动化
  • ✅ Modelfile 自定义系统 prompt + 参数
  • ✅ Mac M 系列 MLX 用户
  • ❌ 多用户并发生产服务(用 vLLM)
  • ❌ GUI 调参 / 模型浏览(配 LM Studio / Open WebUI)
  • ❌ 极致单卡吞吐研究(直接 llama.cpp / vLLM)

相关阅读

来源

  1. Markaicode — Import GGUF Models into Ollama 2026(2026-05-15)https://markaicode.com/import-gguf-models-ollama-guide
  2. ComputingForGeeks — Ollama Models Cheat Sheet 2026 https://computingforgeeks.com/ollama-models-cheat-sheet
  3. Codersera — Ollama vs LM Studio vs vLLM vs llama.cpp vs MLX 2026 https://codersera.com/blog/ollama-vs-lm-studio-vs-vllm-vs-llama-cpp-vs-mlx-2026/
02 / 03价格速查
计划价格限制国内支付备注
开源版免费
03 / 03 常见问题
和 LM Studio 怎么选?

Ollama = Daemon + CLI,开机自启在 11434 端口跑,应用 / IDE 调它最方便。LM Studio = GUI,模型浏览 / 调参 / 聊天体验更好。两者底层都基于 llama.cpp,Mac M 系列上都已切 MLX。

Modelfile 是什么?

类 Dockerfile 的模型配置:`FROM ./xxx.gguf` + PARAMETER / TEMPLATE / SYSTEM。把任意 GGUF 注册成本地模型供调用。`ollama create my-model -f Modelfile`。

OpenAI 兼容端点?

`http://localhost:11434/v1`。任何 OpenAI SDK 改 baseURL 即用。也可走原生 `/api/chat`、`/api/generate`。

并发能力?

单用户原型场景顺滑(~40 tok/s peak),多用户并发明显不如 vLLM(vLLM 的 PagedAttention + 连续批处理高 16–20×)。生产并发选 vLLM。