山中八月 发表于 2026-3-31 15:30:15

传的神乎其神的google的turbo quant 优化,atomic chat部署上了,我亲自测了

传的神乎其神的google的turbo quant 优化,atomic chat部署上了,我亲自测了,它的视频这么快因为它用的是4bit量化模型的,这跟kv quant也没关系啊,谁用都快,然后拿同样的9b BF16和没开启turbo quant的 llmstudio对比,采样的超参数都一样的,两者唯一区别就是mlx对gguf,token per second是一样的。甚至atomic 还不如llmstuido的普通的快,G家也是够逗,不过这个论文本来是25年4月就发了,没什么影响,突然今年看存储涨价了,然后Google又拿来刷一下存在感,市场没人关心是否有用,只关心能否砸盘,顺变吐槽一下qwen的thinking,问一句hello至于这么多内心戏吗?




















页: [1]
查看完整版本: 传的神乎其神的google的turbo quant 优化,atomic chat部署上了,我亲自测了