Qwen 3.5 397B：最强本地编程模型？

春春欲动 · 发表于 2026-3-22 10:03:18

【Qwen 3.5 397B：最强本地编程模型？】

快速阅读：一位开发者测试了Qwen 3.5 397B模型后认为，它是目前最好的本地编程模型。虽然生成速度较慢（11-15 tokens/秒），但代码质量极高，几乎不需要多轮修复。更令人惊讶的是，使用IQ2_XS量化版本仅需123GB内存就能运行，在极低精度下仍保持了出色的性能。

---

这个结论来自Reddit LocalLLaMA板块的一次讨论。发帖者称他测试了几乎所有主流的本地大模型——从Qwen系列的122B/35B/27B，到GPT-OSS 120B、StepFun 3.5、MiniMax M2.5，再到Super Nemotron 120B，没有一个在知识储备和代码准确性上能接近397B。

速度慢是个问题。在96GB DDR5内存+48GB显存的配置下，它的生成速度从空白上下文的15 tokens/秒降到10万tokens时的11 tokens/秒。有网友调侃说这是"每个工作日一个token"，也有人质疑这种速度是否实用。

但发帖者的逻辑很直接：虽然单次生成慢，但因为代码质量高，不需要反复修改，总体效率反而更高。而且和它的小版本或StepFun 3.5不同，397B的思考过程其实很简洁。

量化技术在这里起了关键作用。AesSedai制作的IQ2_XS量化版本把模型压缩到123GB，相比之下，其他模型即使是更小的参数量也要用IQ4_XS（StepFun 3.5、MiniMax M2.5）或Q6_K（Qwen 3.5 122b/35b/27b）。

这引发了一个有意思的讨论：2bit量化的397B是否比4-6bit量化的122B更好？有网友分享了评测数据——IQ2_XS在MMLU上达到87.86%，GPQA diamond达到82.32%，这个表现远超预期。

有观点认为，对于MoE架构的超大模型，"小模型高精度 vs 大模型低精度"的权衡逻辑已经不适用了。397B的参数空间太大，量化噪声分散后影响有限，路由机制和专家系统仍然有效运作。

硬件门槛确实存在。最经济的方案是两台Strix Halo（约5000美元）或256GB的Mac Studio M3 Ultra（约7000美元）。也有人用192GB DDR5 + 36GB VRAM的配置跑IQ4，速度在6-8 tokens/秒。

评论区出现了两派观点。一派认为在Claude订阅只需每月几十美元的情况下，花7000美元买硬件跑一个"差不多但不完全一样好"的模型不划算。另一派则强调本地部署的价值：完全的控制权、隐私保护、不受服务商限制，以及应对未来可能的政策变化。

有网友提到，如果把这些硬件当作开发机来看，额外成本就没那么夸张了。Strix Halo或Mac Studio本身也是性能不错的工作站，只是顺便能跑大模型而已。

在实际应用中，有人发现MiniMax M2.5在一次性生成代码方面更强，但Qwen 3.5 397B在需要迭代调试的编程框架中表现更智能。也有人提到GLM-5在软件工程任务上仍然是最强的，尽管速度更慢。

一个值得注意的细节：网友测试了TQ1_0量化版本（极端压缩），在3090 + P40 + 48GB DDR5的配置下仍能达到9-10 tokens/秒。虽然TQ1_0通常被认为压缩过度，但实际结果出人意料地好。

还有人用Mac Studio 128GB通过MLX框架运行Q4量化版本，实现了9 tokens/秒的速度。甚至有开发者声称可以在只有6-9GB内存的MacBook Pro上通过SSD卸载的方式运行，虽然速度会慢很多。

关于速度，有网友做了个对比：DeepSeek 3.2在各大API服务商的平均速度在10-25 tokens/秒之间，11-15 tokens/秒其实在可用范围内。关键是任务类型——对于简单的代码补全，速度很重要；但对于复杂的架构设计和多文件重构，质量比速度更关键。

有个反直觉的观点：可能让27B模型做两遍任务，比跑一遍397B更高效。基准测试显示，27B在第二次尝试时就能接近397B的表现。

最后还有一些技术细节。用USB4连接两台机器做分布式推理，实际带宽能达到10Gbps，虽然比理论值低但足够用。通过llama.cpp的rpc-server可以实现负载分割，速度损失约10%。

这场讨论最有意思的地方不是某个模型有多强，而是整个社区在探索"本地AI"的边界时展现出的创造力。从极端量化到分布式推理，从硬件改造到软件优化，每个人都在用自己的方式突破限制。

ref: www.reddit.com/r/LocalLLaMA/comm ... l_coder_i_have_used

##

Qwen 3.5 397B：最强本地编程模型？

本帖子中包含更多资源

相关帖子