6GB显存跑35B大模型，“够用”的门槛到底在哪

wx520 · 发表于 2026-3-2 12:56:55

【6GB显存跑35B大模型，“够用”的门槛到底在哪】

快速导读：Qwen 3.5小模型系列即将发布，最小0.8B，最大9B。更值得关注的是：有人已经在6GB显存的RTX 2060上跑起了35B参数的模型，效果不输Claude。本地AI的门槛，正在以肉眼可见的速度崩塌。

---

有人在一张2026年就该淘汰的RTX 2060上，用6GB显存，跑起了Qwen 3.5 35B。

速度是10到20个token每秒。他拿它在Roo Code里写代码、画甘特图、生成Mermaid流程图。他说，效果和Sonnet 4差不多。

这不是什么特殊硬件，这是一张你在二手市场800块能买到的显卡。

大多数人对本地AI的印象还停在那个年代：你得有钱，得有机房级别的GPU，得是Anthropic或者OpenAI的工程师，才有资格谈“在自己机器上跑大模型”。但这个印象正在以一种让人有点措手不及的速度失效。

Qwen团队这次要发布的四个小模型——9B、4B、2B、0.8B——放在两年前，这个参数量意味着“只能做做简单问答”。现在社区里有人在算一件事：根据MoE模型的几何均值估算法，一个9B的稠密模型，实际推理性能可能落在30B到35B MoE模型的同等区间。也就是说，你在一张家用显卡上跑的9B，打的是曾经需要专业服务器才能运行的模型段位。

更有意思的是评论区里的一个细节：有人说他用0.8B跑分类器和FAQ支持，“跑在WebGPU上”。还有人在认真讨论用0.8B做投机解码（speculative decoding）的草稿模型，给27B加速。这个0.8B，已经不是玩具了，它是流水线上的一颗螺丝钉。

Qwen 3.5在这一代还内置了多token预测（MTP）——不需要单独准备草稿模型，推理速度直接提升，vLLM已经原生支持，有人测到60%以上的接受率。这意味着同样的硬件，速度再往上推一截。

评论区里有人说“大家都开始叫你去买GPU了”，语气带着一点调侃。但这句话背后有个真实的判断在形成：当9B能打30B，当6GB显存能跑35B量化版，当0.8B开始承担生产任务——“买张消费级显卡自建AI”这件事，正在从极客圈的小众爱好，变成一个值得认真考虑的选项。

问题只剩一个：你现在手上那张显卡，还差多久会让你觉得不够用？

---

简评：

Qwen这波小模型发布的真正意义，不在于参数表，而在于它把“本地AI够不够用”这个问题的答案，从“看预算”变成了“看你要干什么”。性价比的拐点不是某个benchmark分数，是那个在2060上跑35B还说“够用”的人。

---

ref: reddit.com/r/LocalLLaMA/comments/1ri2irg/breaking_today_qwen_35_small

##

6GB显存跑35B大模型，“够用”的门槛到底在哪

本帖子中包含更多资源

相关帖子

浏览过的版块