跳到主内容
AIHO 2026 全新改版上线
TOOL · CODING #04/05本地化
LM Studio

LM Studio

本地 LLM 的 GUI 首选——模型浏览器 + GGUF/MLX 推理 + OpenAI 兼容 API + Mac 原生优化

localguiggufmlxllama-cppmacopenai-compatible
访问官网
能力
4
易用
5
性价比
5
中文
3
稳定
4
编辑结论 综合4.2/ 5

Mac / Windows 桌面本地 LLM 的 GUI 首选——上手最快、模型浏览最舒服、自带 OpenAI 兼容 API。批量服务 / 多用户场景用 vLLM;纯 CLI / 嵌入应用走 Ollama。

01 / 03深度解读

TL;DR

LM Studio 是 Windows / macOS / Linux 桌面应用,让你像浏览 App Store 一样发现、下载、运行本地大模型(GGUF / MLX 格式)。底层基于 llama.cpp + MLX,Mac M 系列原生优化。0.3+ 起新增 Headless 模式 + lms CLI,可在服务器跑 OpenAI 兼容 API(默认 :1234)。个人 / 评估完全免费,商用咨询。

适合:本地 LLM 入门 / 评估、Mac 用户、需要 GUI 调参 / 模型比较、想给 IDE / 应用接本地 OpenAI 兼容 endpoint 的开发者。不适合:多用户并发生产服务(用 vLLM)、嵌入式 / 边缘部署(用 llama.cpp)、纯 CLI 工作流(用 Ollama)。

核心能力

  • 模型浏览器:内置 Hugging Face 检索,按 GGUF / MLX / 大小筛选、一键下载
  • 聊天界面:System Prompt / temperature / top-p / context size 可视化调参
  • 多模型并存 / 切换:同时加载多模型在不同会话中比较
  • OpenAI 兼容 Local Serverhttp://localhost:1234/v1,任何 SDK 即接即用
  • Headless / CLIlms server start --port 1234,无 GUI 可跑
  • PDF / 文档对话:内置基础 RAG,丢文件就能聊
  • MLX 原生支持(Mac):M1+ 上比 GGUF + Metal 快 30–50%
  • 持续批处理:Codersera 2026 测得 50–90 tok/s(消费级 GPU + 中等模型)

价格

  • 个人 / 评估:免费,全功能可用
  • 商用:邮件 / 官网联系 LM Studio 团队

模型本身免费(开源权重),LM Studio 不抽水任何 token 费用。

实测(Mac M2 Pro + Qwen3-Coder-7B GGUF Q4_K_M)

亮点:

  • 模型浏览器极舒服:搜「qwen3-coder」直接列出 GGUF + MLX 各 quant,标硬件兼容度
  • 加载 7B Q4 模型 < 3 秒,生成 ~75 tok/s
  • Local Server 开了 Cursor 直接接 baseURL → 本地代码补全零成本
  • MLX 版同模型 ~110 tok/s,差距显著
  • 多窗口加载 2 个模型并排测,调 prompt 直观

踩坑:

  • 模型库依赖 Hugging Face,国内访问要镜像 / 代理
  • GPU 显存吃满后会自动 offload 到 CPU,无提示就慢下来
  • Headless 模式相对 Ollama 偏新,文档稍少
  • 闭源应用(虽免费),不适合企业合规挂钩
  • 中文 UI 可用但部分菜单仍英文

上手

  1. lmstudio.ai 下载(Mac / Windows / Linux)
  2. 打开 → Discover 标签 → 搜模型(如 qwen3-coder、deepseek-v3 GGUF/MLX)→ Download
  3. Chat 标签 → 选模型 → 调参聊天
  4. Local Server 标签 → Start Server → 默认端口 1234
  5. 在你的应用里:baseURL = "http://localhost:1234/v1",API Key 任意
  6. Headless:lms server start --port 1234

对比

维度LM StudioOllamaOpen WebUIllama.cpp
形态GUI + CLICLI DaemonDocker UI二进制
模型浏览✅ 内置CLI pull手动
参数调优 GUI部分
OpenAI 兼容 API✅ :1234✅ :11434
MLX (Mac)✅ 0.19+
多用户并发
开源闭源(免费)MITMITMIT
上手难度极低

避坑

  • 国内下模型走镜像:HF 直连慢 / 卡,配 HF_ENDPOINT=hf-mirror.com
  • 显存爆 ≠ 报错:GPU 装不下会无声 offload 到 CPU,关注生成速度,必要时降 quant 或换小模型
  • MLX 优先(Mac M 系列):能下 MLX 版就别下 GGUF,速度差距明显
  • Local Server 暴露要谨慎:默认 0.0.0.0 + 无鉴权,对外开放前加反代 + Bearer
  • 闭源合规要核:企业内部使用前查 license;商用必须联系官方

适合 / 不适合

  • ✅ 本地 LLM 入门 / 评估
  • ✅ Mac M 系列用户
  • ✅ 想给 Cursor / Cline 接本地 OpenAI 兼容 endpoint
  • ✅ 需要 GUI 调参 / 模型比较
  • ❌ 多用户并发生产服务
  • ❌ 嵌入式 / 边缘设备
  • ❌ 强合规 / 必须开源审计

相关阅读

来源

  1. LM Studio 官网 https://lmstudio.ai/
  2. Codersera — LM Studio Complete Guide 2026 https://codersera.com/blog/lm-studio-complete-guide-2026/
  3. Codersera — Ollama vs LM Studio vs vLLM vs llama.cpp vs MLX 2026 https://codersera.com/blog/ollama-vs-lm-studio-vs-vllm-vs-llama-cpp-vs-mlx-2026/
02 / 03价格速查
计划价格限制国内支付备注
个人 / 评估免费
商用联系咨询
03 / 03 常见问题
和 Ollama 怎么选?

LM Studio 是 GUI 优先(模型浏览器 + 参数面板 + 聊天界面),适合个人 / 评估 / 上手。Ollama 是 CLI / Daemon 优先(后台跑 + REST API),适合应用嵌入 / 脚本调用。两者都基于 llama.cpp,在 Mac M 系列上都已用 MLX。

支持 MLX 吗?

支持。Mac M1+ 上可加载 MLX 格式模型,速度比 GGUF + Metal 快 30–50%。模型搜索时筛选 MLX 即可。

OpenAI 兼容 API 怎么用?

开 Local Server → 默认端口 1234 → `http://localhost:1234/v1`。任何 OpenAI SDK 把 baseURL 改这个就能跑本地模型,零代码改动。

Headless 模式?

0.3+ 起支持 `lms server start` CLI 启动后台服务,无 GUI 即可跑 OpenAI 兼容 API,适合服务器 / SSH 场景。