首次体验 qwen 3.5 27B dense 在单张 RTX 3090 显卡上的表现。

王允林 · 发表于 2026-3-7 21:51:56

首次体验 qwen 3.5 27B dense 在单张 RTX 3090 显卡上的表现。

35 tok/s。从 4K 到 300K+ 上下文，速度没有下降。Hermes 4.3 初始速度为 35 tok/s，随着上下文填充，速度降至 15 tok/s。Qwen 密集型保持稳定。MoE 保持 112 tok/s 稳定。速度提升了 3 倍，但每个代币只有 30 亿活跃用户（总用户数为 350 亿）。架构权衡。

Q4_K_M 内存占用 16.7GB，原生上下文 262K。在 24GB 显存下，训练时缓存大小突破 376K 后达到上限。尝试使用 262K 的 q8 键值缓存，速度骤降至 11 tok/s。q4_0 键值缓存是最佳选择。必须启用闪存注意力机制。

内置推理模式。模型会逐步思考后再给出答案。完整的思维链经受住了第四季度量化分析的考验。超过 1799 条带有自我纠错循环的思维链。仅需一块消费级 GPU 即可运行。

只给了它一个提示：“用一个 HTML 文件构建一个实时粒子星系模拟”。3340 个令牌。95 秒。一次性运行。首次加载时运行。完整的推理和代码请见下方视频。

如果您想省去数小时的测试时间，以下是最佳配置：
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0

这只是热身。接下来是章鱼入侵者：10 个文件，3400 多行代码，完全没有控制。提示符 hermes 在 22% 处退出。

比预期更令人印象深刻。完整结果即将公布。

首次体验 qwen 3.5 27B dense 在单张 RTX 3090 显卡上的表现。

本帖子中包含更多资源