找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2|回复: 0

25 tokens/s vs. 50+ tokens/s,一个残酷的测试戳破了Ollama的神话

[复制链接]

10

主题

0

回帖

40

积分

新手上路

积分
40
发表于 2 小时前 | 显示全部楼层 |阅读模式
【25 tokens/s vs. 50+ tokens/s,一个残酷的测试戳破了Ollama的神话】


快速导读:很多人用Ollama或LM Studio图个方便,但一个在技术圈引起热议的帖子指出,这种便利的代价可能是损失超过一半的性能。一个叫llama-swap的轻量级工具,正在成为高阶玩家的新选择。

---

LM Studio里跑一个大模型,速度20-25 tok/s。换成纯粹的llama.cpp,速度飙到50+ tok/s。性能直接翻倍。

这个数据来自一个热门讨论,它正在让很多本地大模型玩家重新审视自己的工具链。大多数人,尤其是刚入门的,首选都是Ollama或LM Studio。理由很简单:一键安装、图形界面、模型市场,主打一个省心。

但这份省心的代价,可能是你的高端显卡正在被软件“封印”。

一个叫llama-swap的工具浮出水面。它本质上是一个极其轻量级的“模型路由器”,自己不跑模型,而是灵活调用你系统里最快的推理后端——比如最新版的llama.cpp、vLLM、或者任何其他引擎。Ollama们为了兼容性和易用性,内置的后端往往不是最新、最激进的版本,性能自然打了折扣。

GitHub: github.com/mostlygeek/llama-swap

如果你只是偶尔尝鲜,Ollama的便利性无可厚非。但如果你为本地部署投入了上万的硬件成本,却因为一个启动器损失了一半的性能,这事就有点微妙了。

一键启动的便利,真的值得你用一半的显卡算力去交换吗?

---

简评:

从“能用”到“用好”的分水岭。很多人以为自己在玩本地模型,其实只是在玩Ollama。硬件的瓶颈,有时候是软件。

---

ref: reddit.com/r/LocalLLaMA/comments/1rm7nq1/to_everyone_using_still_ollamalmstudio_llamaswap

##


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-7 22:57 , Processed in 0.211782 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表