谷歌发布了一篇论文,引发全球存储芯片股票大跌,却没有发布任何代码。
Tom Turney读完论文中的数学部分后,打开终端,在Claude的辅助下把整套方案实现了出来——而且速度比谷歌承诺的还要快。
第1-3天:完成核心算法、141项测试、Python原型
第3-5天:将代码用C语言移植进llama.cpp,并实现Metal GPU内核
第5-7天:性能优化,从739提升到2747 tokens/秒
这相当于仅通过工程优化实现了3.7倍加速:
fp32 → fp16 的WHT(沃尔什-哈达玛变换)
使用half4向量化的蝶形运算
在计算图侧进行旋转(graph-side rotation)
block-32存储布局
随后他又在此基础上加入了自己的研究改进:
稀疏V:在长上下文下跳过90%的value解压
非对称K/V:保持key的高精度,对value进行更激进压缩
时间衰减:较旧的token自动使用更低精度
最终结果:一个350亿参数模型可以在MacBook上运行,并且缓存压缩达到4.6倍。
该项目一周内获得了613个GitHub星标,而谷歌至今仍未发布其官方代码。
#https://video.weibo.com/show?fid=1034:5282455889051665
##