查看: 5|回复: 0

传的神乎其神的google的turbo quant 优化,atomic chat部署上了,我亲自测了

[复制链接]

12

主题

2

回帖

40

积分

新手上路

积分
40
发表于 昨天 15:30 | 显示全部楼层 |阅读模式
传的神乎其神的google的turbo quant 优化,atomic chat部署上了,我亲自测了,它的视频这么快因为它用的是4bit量化模型的,这跟kv quant也没关系啊,谁用都快,然后拿同样的9b BF16和没开启turbo quant的 llmstudio对比,采样的超参数都一样的,两者唯一区别就是mlx对gguf,token per second是一样的。甚至atomic 还不如llmstuido的普通的快,G家也是够逗,不过这个论文本来是25年4月就发了,没什么影响,突然今年看存储涨价了,然后Google又拿来刷一下存在感,市场没人关心是否有用,只关心能否砸盘,顺变吐槽一下qwen的thinking,问一句hello至于这么多内心戏吗?




















本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部