
LM Studio
本地 LLM 的 GUI 首选——模型浏览器 + GGUF/MLX 推理 + OpenAI 兼容 API + Mac 原生优化
Mac / Windows 桌面本地 LLM 的 GUI 首选——上手最快、模型浏览最舒服、自带 OpenAI 兼容 API。批量服务 / 多用户场景用 vLLM;纯 CLI / 嵌入应用走 Ollama。
TL;DR
LM Studio 是 Windows / macOS / Linux 桌面应用,让你像浏览 App Store 一样发现、下载、运行本地大模型(GGUF / MLX 格式)。底层基于 llama.cpp + MLX,Mac M 系列原生优化。0.3+ 起新增 Headless 模式 + lms CLI,可在服务器跑 OpenAI 兼容 API(默认 :1234)。个人 / 评估完全免费,商用咨询。
适合:本地 LLM 入门 / 评估、Mac 用户、需要 GUI 调参 / 模型比较、想给 IDE / 应用接本地 OpenAI 兼容 endpoint 的开发者。不适合:多用户并发生产服务(用 vLLM)、嵌入式 / 边缘部署(用 llama.cpp)、纯 CLI 工作流(用 Ollama)。
核心能力
- 模型浏览器:内置 Hugging Face 检索,按 GGUF / MLX / 大小筛选、一键下载
- 聊天界面:System Prompt / temperature / top-p / context size 可视化调参
- 多模型并存 / 切换:同时加载多模型在不同会话中比较
- OpenAI 兼容 Local Server:
http://localhost:1234/v1,任何 SDK 即接即用 - Headless / CLI:
lms server start --port 1234,无 GUI 可跑 - PDF / 文档对话:内置基础 RAG,丢文件就能聊
- MLX 原生支持(Mac):M1+ 上比 GGUF + Metal 快 30–50%
- 持续批处理:Codersera 2026 测得 50–90 tok/s(消费级 GPU + 中等模型)
价格
- 个人 / 评估:免费,全功能可用
- 商用:邮件 / 官网联系 LM Studio 团队
模型本身免费(开源权重),LM Studio 不抽水任何 token 费用。
实测(Mac M2 Pro + Qwen3-Coder-7B GGUF Q4_K_M)
亮点:
- 模型浏览器极舒服:搜「qwen3-coder」直接列出 GGUF + MLX 各 quant,标硬件兼容度
- 加载 7B Q4 模型 < 3 秒,生成 ~75 tok/s
- Local Server 开了 Cursor 直接接 baseURL → 本地代码补全零成本
- MLX 版同模型 ~110 tok/s,差距显著
- 多窗口加载 2 个模型并排测,调 prompt 直观
踩坑:
- 模型库依赖 Hugging Face,国内访问要镜像 / 代理
- GPU 显存吃满后会自动 offload 到 CPU,无提示就慢下来
- Headless 模式相对 Ollama 偏新,文档稍少
- 闭源应用(虽免费),不适合企业合规挂钩
- 中文 UI 可用但部分菜单仍英文
上手
- lmstudio.ai 下载(Mac / Windows / Linux)
- 打开 → Discover 标签 → 搜模型(如 qwen3-coder、deepseek-v3 GGUF/MLX)→ Download
- Chat 标签 → 选模型 → 调参聊天
- Local Server 标签 → Start Server → 默认端口 1234
- 在你的应用里:
baseURL = "http://localhost:1234/v1",API Key 任意 - Headless:
lms server start --port 1234
对比
| 维度 | LM Studio | Ollama | Open WebUI | llama.cpp |
|---|---|---|---|---|
| 形态 | GUI + CLI | CLI Daemon | Docker UI | 二进制 |
| 模型浏览 | ✅ 内置 | CLI pull | 无 | 手动 |
| 参数调优 GUI | ✅ | ❌ | 部分 | ❌ |
| OpenAI 兼容 API | ✅ :1234 | ✅ :11434 | ✅ | ✅ |
| MLX (Mac) | ✅ | ✅ 0.19+ | – | – |
| 多用户并发 | 弱 | 弱 | ✅ | 中 |
| 开源 | 闭源(免费) | MIT | MIT | MIT |
| 上手难度 | 极低 | 低 | 中 | 高 |
避坑
- 国内下模型走镜像:HF 直连慢 / 卡,配 HF_ENDPOINT=hf-mirror.com
- 显存爆 ≠ 报错:GPU 装不下会无声 offload 到 CPU,关注生成速度,必要时降 quant 或换小模型
- MLX 优先(Mac M 系列):能下 MLX 版就别下 GGUF,速度差距明显
- Local Server 暴露要谨慎:默认 0.0.0.0 + 无鉴权,对外开放前加反代 + Bearer
- 闭源合规要核:企业内部使用前查 license;商用必须联系官方
适合 / 不适合
- ✅ 本地 LLM 入门 / 评估
- ✅ Mac M 系列用户
- ✅ 想给 Cursor / Cline 接本地 OpenAI 兼容 endpoint
- ✅ 需要 GUI 调参 / 模型比较
- ❌ 多用户并发生产服务
- ❌ 嵌入式 / 边缘设备
- ❌ 强合规 / 必须开源审计
相关阅读
来源
- LM Studio 官网 https://lmstudio.ai/
- Codersera — LM Studio Complete Guide 2026 https://codersera.com/blog/lm-studio-complete-guide-2026/
- Codersera — Ollama vs LM Studio vs vLLM vs llama.cpp vs MLX 2026 https://codersera.com/blog/ollama-vs-lm-studio-vs-vllm-vs-llama-cpp-vs-mlx-2026/
| 计划 | 价格 | 限制 | 国内支付 | 备注 |
|---|---|---|---|---|
| 个人 / 评估 | 免费 | — | — | |
| 商用 | 联系咨询 | — | — |
和 Ollama 怎么选?
LM Studio 是 GUI 优先(模型浏览器 + 参数面板 + 聊天界面),适合个人 / 评估 / 上手。Ollama 是 CLI / Daemon 优先(后台跑 + REST API),适合应用嵌入 / 脚本调用。两者都基于 llama.cpp,在 Mac M 系列上都已用 MLX。
支持 MLX 吗?
支持。Mac M1+ 上可加载 MLX 格式模型,速度比 GGUF + Metal 快 30–50%。模型搜索时筛选 MLX 即可。
OpenAI 兼容 API 怎么用?
开 Local Server → 默认端口 1234 → `http://localhost:1234/v1`。任何 OpenAI SDK 把 baseURL 改这个就能跑本地模型,零代码改动。
Headless 模式?
0.3+ 起支持 `lms server start` CLI 启动后台服务,无 GUI 即可跑 OpenAI 兼容 API,适合服务器 / SSH 场景。