你以为AI只会写应用层代码，其实它已开始自主发现底层优化技巧

第十一人

2026-03-05 10:18:40

【你以为AI只会写应用层代码，其实它已开始自主发现底层优化技巧】

快速导读：字节跳动的一个AI Agent，写出的CUDA代码优化效果，在最难的基准测试中比torch.compile快100%。但最关键的不是性能数字，而是AI通过强化学习，自主发现了人类专家未曾明确传授的优化技巧。

---

字节跳动的一个AI，写出的CUDA代码，在最难的基准测试上，比Claude Opus 4.5强40%，比PyTorch的自动优化工具torch.compile快100%。

论文：cuda-agent.github.io

这组数字很惊人，但甚至不是最重要的部分。

你以为，底层硬件优化，比如写CUDA，是程序员最后的“黑魔法”领地——一个需要深厚硬件知识、依赖直觉和“体感”的、无法被轻易语言化的手艺活。但这次真正让人不安的，是AI通过强化学习，自主发现了那些优化技巧。

没人教它要融合内核或简化矩阵代数，它自己想通了。

这个现象背后，可能是一个更值得玩味的逻辑：美国的科技巨头可以靠无限堆砌Nvidia芯片解决算力问题，所以软件层面的极致优化，优先级没那么高。而中国公司在芯片受限的背景下，别无选择，只能把每一分算力都压榨到极致。

当别人有无限弹药时，你只能把枪法练到极致。现在的问题是，练枪的变成了AI。

这件事给所有靠“手艺”吃饭的资深工程师提了个醒。如果你的核心价值是那些无法清晰描述、依赖直觉和经验的“高级手感”，那么一个专门训练的AI Agent，可能已经走在接近你的路上了。

当机器开始拥有“手感”，我们引以为傲的到底是什么？

---

简评：

从堆芯片的蛮力竞争，转向压榨每一滴算力的软件优化——这可能是芯片限制带来的意外后果。当别人有无限弹药时，你只能把枪法练到极致，现在的问题是，练枪的变成了AI。这不仅是技术的突破，更是资源限制倒逼出的进化路径。

---

ref: www.reddit.com/r/singularity/comments/1rkkolb/a_chinese_ai_lab_just_built_an_ai_that_writes/

##

相关阅读