6GB显卡跑35B模型，只需改一个参数，速度翻三倍

风踏歌行 · 发表于 2026-3-1 10:31:53

【6GB显卡跑35B模型，只需改一个参数，速度翻三倍】

快速导读：一个关于Qwen新模型的Reddit讨论帖，意外成了本地AI生态的横截面——有人用6GB显卡靠CPU卸载把速度提升了5倍，有人买了32GB显存的新显卡当天就遇到驱动报错，有人说“我太笨了不会编译llama.cpp”，然后有人回复“我用了5分钟就装好了，你读说明了吗”。

---

一张截图在LocalLLaMA论坛传开：Unsloth的模型仓库里新增了7个隐藏条目。没有公告，没有说明，就是数字从4变成7。讨论区开始猜，有人说是4B+9B的新尺寸，有人说只是修复了量化问题的新版GGUF，有人直接贴出一条对话证明——Unsloth的开发者丹尼尔悄悄在帖子里确认了消息。

但真正有意思的不是新模型来了，而是讨论里暴露出来的另一件事。

一个用RTX 2060（6GB显存）的用户在跑Qwen3.5-35B这个MoE模型，速度是2-3 token/s。另一个人说，你试过`--cpu-moe`参数吗？把专家层放到内存里跑，显存只用来存KV缓存。对方试了，速度变成10 token/s。这个对话加起来不超过五条，但它描述的事实是：一个2020年的中端笔记本显卡，在2025年跑一个“35B”的模型，速度翻了三倍多，只是因为用对了一个命令行参数。

MoE架构的逻辑在这里体现得很具体。35B参数里，每次实际激活的只有3B。这意味着显存的瓶颈不再是模型“总共有多大”，而是“每次用多少”。对低显存用户来说，这个架构的价值不是跑更聪明的模型，是让他们重新获得了参与资格。

代价是有的。同一个帖子里，有人说稠密版的27B在推理质量上仍然胜过35B MoE，尤其是复杂推理任务。速度换了，但不是免费的。另一个争论点是量化精度——Unsloth之所以悄悄更新隐藏模型，正是因为社区发现他们之前对注意力门控张量用了MXFP4量化，精度不够，不得不重新出一批实验版本。

还有一条评论让人停了一下：“我太蠢了，不会编译llama.cpp。”几个人同时回复：去GitHub下预编译版本，5分钟搞定。然后那个人解释说自己用的是openSUSE Tumbleweed，发行版仓库里的版本太旧，没有预编译包。

这不是一个笑话，这是真实的分层。本地AI的门槛从来不是显卡不够好，是你能不能找到正确的参数、正确的版本、正确的命令行顺序。有人花五分钟装好，有人卡在编译环境里一周。

如果你最近也在折腾本地部署，那个让你卡住的地方，大概率不是硬件，而是某个没有人专门写过教程的组合——特定的系统、特定的模型格式、特定的参数配置。

新模型来了之后，这个问题不会消失。

---

简评：

“本地AI社区每天都在发生两种人：一种人把自己的硬件跑到极限然后分享参数，另一种人在问要不要升级显卡。前者让后者的设备又多活了两年。”

---

ref: reddit.com/r/LocalLLaMA/comments/1rgzul5/are_you_ready_for_small_qwens

6GB显卡跑35B模型，只需改一个参数，速度翻三倍

本帖子中包含更多资源