和 Ollama 怎么选？

LM Studio 是 GUI 优先（模型浏览器 + 参数面板 + 聊天界面），适合个人 / 评估 / 上手。Ollama 是 CLI / Daemon 优先（后台跑 + REST API），适合应用嵌入 / 脚本调用。两者都基于 llama.cpp，在 Mac M 系列上都已用 MLX。

支持。Mac M1+ 上可加载 MLX 格式模型，速度比 GGUF + Metal 快 30–50%。模型搜索时筛选 MLX 即可。

OpenAI 兼容 API 怎么用？

开 Local Server → 默认端口 1234 → `http://localhost:1234/v1`。任何 OpenAI SDK 把 baseURL 改这个就能跑本地模型，零代码改动。

0.3+ 起支持 `lms server start` CLI 启动后台服务，无 GUI 即可跑 OpenAI 兼容 API，适合服务器 / SSH 场景。

LM Studio — AIHO

Name: LM Studio
Rating: 4.2

TL;DR

LM Studio 是 Windows / macOS / Linux 桌面应用，让你像浏览 App Store 一样发现、下载、运行本地大模型（GGUF / MLX 格式）。底层基于 llama.cpp + MLX，Mac M 系列原生优化。0.3+ 起新增 Headless 模式 + lms CLI，可在服务器跑 OpenAI 兼容 API（默认 :1234）。个人 / 评估完全免费，商用咨询。

适合：本地 LLM 入门 / 评估、Mac 用户、需要 GUI 调参 / 模型比较、想给 IDE / 应用接本地 OpenAI 兼容 endpoint 的开发者。不适合：多用户并发生产服务（用 vLLM）、嵌入式 / 边缘部署（用 llama.cpp）、纯 CLI 工作流（用 Ollama）。

核心能力

模型浏览器：内置 Hugging Face 检索，按 GGUF / MLX / 大小筛选、一键下载
聊天界面：System Prompt / temperature / top-p / context size 可视化调参
多模型并存 / 切换：同时加载多模型在不同会话中比较
OpenAI 兼容 Local Server：http://localhost:1234/v1，任何 SDK 即接即用
Headless / CLI：lms server start --port 1234，无 GUI 可跑
PDF / 文档对话：内置基础 RAG，丢文件就能聊
MLX 原生支持（Mac）：M1+ 上比 GGUF + Metal 快 30–50%
持续批处理：Codersera 2026 测得 50–90 tok/s（消费级 GPU + 中等模型）

价格

个人 / 评估：免费，全功能可用
商用：邮件 / 官网联系 LM Studio 团队

模型本身免费（开源权重），LM Studio 不抽水任何 token 费用。

实测（Mac M2 Pro + Qwen3-Coder-7B GGUF Q4_K_M）

亮点：

模型浏览器极舒服：搜「qwen3-coder」直接列出 GGUF + MLX 各 quant，标硬件兼容度
加载 7B Q4 模型 < 3 秒，生成 ~75 tok/s
Local Server 开了 Cursor 直接接 baseURL → 本地代码补全零成本
MLX 版同模型 ~110 tok/s，差距显著
多窗口加载 2 个模型并排测，调 prompt 直观

踩坑：

模型库依赖 Hugging Face，国内访问要镜像 / 代理
GPU 显存吃满后会自动 offload 到 CPU，无提示就慢下来
Headless 模式相对 Ollama 偏新，文档稍少
闭源应用（虽免费），不适合企业合规挂钩
中文 UI 可用但部分菜单仍英文

上手

lmstudio.ai 下载（Mac / Windows / Linux）
打开 → Discover 标签 → 搜模型（如 qwen3-coder、deepseek-v3 GGUF/MLX）→ Download
Chat 标签 → 选模型 → 调参聊天
Local Server 标签 → Start Server → 默认端口 1234
在你的应用里：baseURL = "http://localhost:1234/v1"，API Key 任意
Headless：lms server start --port 1234

对比

维度	LM Studio	Ollama	Open WebUI	llama.cpp
形态	GUI + CLI	CLI Daemon	Docker UI	二进制
模型浏览	✅ 内置	CLI pull	无	手动
参数调优 GUI	✅	❌	部分	❌
OpenAI 兼容 API	✅ :1234	✅ :11434	✅	✅
MLX (Mac)	✅	✅ 0.19+	–	–
多用户并发	弱	弱	✅	中
开源	闭源（免费）	MIT	MIT	MIT
上手难度	极低	低	中	高

避坑

国内下模型走镜像：HF 直连慢 / 卡，配 HF_ENDPOINT=hf-mirror.com
显存爆 ≠ 报错：GPU 装不下会无声 offload 到 CPU，关注生成速度，必要时降 quant 或换小模型
MLX 优先（Mac M 系列）：能下 MLX 版就别下 GGUF，速度差距明显
Local Server 暴露要谨慎：默认 0.0.0.0 + 无鉴权，对外开放前加反代 + Bearer
闭源合规要核：企业内部使用前查 license；商用必须联系官方

适合 / 不适合

✅ 本地 LLM 入门 / 评估
✅ Mac M 系列用户
✅ 想给 Cursor / Cline 接本地 OpenAI 兼容 endpoint
✅ 需要 GUI 调参 / 模型比较
❌ 多用户并发生产服务
❌ 嵌入式 / 边缘设备
❌ 强合规 / 必须开源审计

来源

LM Studio 官网 https://lmstudio.ai/
Codersera — LM Studio Complete Guide 2026 https://codersera.com/blog/lm-studio-complete-guide-2026/
Codersera — Ollama vs LM Studio vs vLLM vs llama.cpp vs MLX 2026 https://codersera.com/blog/ollama-vs-lm-studio-vs-vllm-vs-llama-cpp-vs-mlx-2026/

计划	价格	限制	国内支付	备注
个人 / 评估	免费	—	—
商用	联系咨询	—	—