25 tokens/s vs. 50+ tokens/s，一个残酷的测试戳破了Ollama的神话

☆飘☆ · 发表于 2026-3-7 20:37:58

【25 tokens/s vs. 50+ tokens/s，一个残酷的测试戳破了Ollama的神话】

快速导读：很多人用Ollama或LM Studio图个方便，但一个在技术圈引起热议的帖子指出，这种便利的代价可能是损失超过一半的性能。一个叫llama-swap的轻量级工具，正在成为高阶玩家的新选择。

---

LM Studio里跑一个大模型，速度20-25 tok/s。换成纯粹的llama.cpp，速度飙到50+ tok/s。性能直接翻倍。

这个数据来自一个热门讨论，它正在让很多本地大模型玩家重新审视自己的工具链。大多数人，尤其是刚入门的，首选都是Ollama或LM Studio。理由很简单：一键安装、图形界面、模型市场，主打一个省心。

但这份省心的代价，可能是你的高端显卡正在被软件“封印”。

一个叫llama-swap的工具浮出水面。它本质上是一个极其轻量级的“模型路由器”，自己不跑模型，而是灵活调用你系统里最快的推理后端——比如最新版的llama.cpp、vLLM、或者任何其他引擎。Ollama们为了兼容性和易用性，内置的后端往往不是最新、最激进的版本，性能自然打了折扣。

GitHub: github.com/mostlygeek/llama-swap

如果你只是偶尔尝鲜，Ollama的便利性无可厚非。但如果你为本地部署投入了上万的硬件成本，却因为一个启动器损失了一半的性能，这事就有点微妙了。

一键启动的便利，真的值得你用一半的显卡算力去交换吗？

---

简评：

从“能用”到“用好”的分水岭。很多人以为自己在玩本地模型，其实只是在玩Ollama。硬件的瓶颈，有时候是软件。

---

ref: reddit.com/r/LocalLLaMA/comments/1rm7nq1/to_everyone_using_still_ollamalmstudio_llamaswap

##

25 tokens/s vs. 50+ tokens/s，一个残酷的测试戳破了Ollama的神话

本帖子中包含更多资源

相关帖子