一位独立开发者在7天内逆向工程了谷歌价值数十亿美元的算法

joep

2026-03-31 10:03:33

一位独立开发者在7天内逆向工程了谷歌价值数十亿美元的算法

谷歌发布了一篇论文，引发全球存储芯片股票大跌，却没有发布任何代码。

Tom Turney读完论文中的数学部分后，打开终端，在Claude的辅助下把整套方案实现了出来——而且速度比谷歌承诺的还要快。

第1-3天：完成核心算法、141项测试、Python原型
第3-5天：将代码用C语言移植进llama.cpp，并实现Metal GPU内核
第5-7天：性能优化，从739提升到2747 tokens/秒

这相当于仅通过工程优化实现了3.7倍加速：

fp32 → fp16 的WHT（沃尔什-哈达玛变换）
使用half4向量化的蝶形运算
在计算图侧进行旋转（graph-side rotation）
block-32存储布局

随后他又在此基础上加入了自己的研究改进：

稀疏V：在长上下文下跳过90%的value解压
非对称K/V：保持key的高精度，对value进行更激进压缩
时间衰减：较旧的token自动使用更低精度

最终结果：一个350亿参数模型可以在MacBook上运行，并且缓存压缩达到4.6倍。
该项目一周内获得了613个GitHub星标，而谷歌至今仍未发布其官方代码。

#https://video.weibo.com/show?fid=1034:5282455889051665
##

相关阅读