传的神乎其神的google的turbo quant 优化，atomic chat部署上了，我亲自测了

山中八月 · 发表于 2026-3-31 15:30:15

传的神乎其神的google的turbo quant 优化，atomic chat部署上了，我亲自测了，它的视频这么快因为它用的是4bit量化模型的，这跟kv quant也没关系啊，谁用都快，然后拿同样的9b BF16和没开启turbo quant的 llmstudio对比，采样的超参数都一样的，两者唯一区别就是mlx对gguf，token per second是一样的。甚至atomic 还不如llmstuido的普通的快，G家也是够逗，不过这个论文本来是25年4月就发了，没什么影响，突然今年看存储涨价了，然后Google又拿来刷一下存在感，市场没人关心是否有用，只关心能否砸盘，顺变吐槽一下qwen的thinking，问一句hello至于这么多内心戏吗？

传的神乎其神的google的turbo quant 优化，atomic chat部署上了，我亲自测了

本帖子中包含更多资源

浏览过的版块