快速导读:字节跳动的一个AI Agent,写出的CUDA代码优化效果,在最难的基准测试中比torch.compile快100%。但最关键的不是性能数字,而是AI通过强化学习,自主发现了人类专家未曾明确传授的优化技巧。
---
字节跳动的一个AI,写出的CUDA代码,在最难的基准测试上,比Claude Opus 4.5强40%,比PyTorch的自动优化工具torch.compile快100%。
论文:cuda-agent.github.io
这组数字很惊人,但甚至不是最重要的部分。
你以为,底层硬件优化,比如写CUDA,是程序员最后的“黑魔法”领地——一个需要深厚硬件知识、依赖直觉和“体感”的、无法被轻易语言化的手艺活。但这次真正让人不安的,是AI通过强化学习,自主发现了那些优化技巧。
没人教它要融合内核或简化矩阵代数,它自己想通了。
这个现象背后,可能是一个更值得玩味的逻辑:美国的科技巨头可以靠无限堆砌Nvidia芯片解决算力问题,所以软件层面的极致优化,优先级没那么高。而中国公司在芯片受限的背景下,别无选择,只能把每一分算力都压榨到极致。
当别人有无限弹药时,你只能把枪法练到极致。现在的问题是,练枪的变成了AI。
这件事给所有靠“手艺”吃饭的资深工程师提了个醒。如果你的核心价值是那些无法清晰描述、依赖直觉和经验的“高级手感”,那么一个专门训练的AI Agent,可能已经走在接近你的路上了。
当机器开始拥有“手感”,我们引以为傲的到底是什么?
---
简评:
从堆芯片的蛮力竞争,转向压榨每一滴算力的软件优化——这可能是芯片限制带来的意外后果。当别人有无限弹药时,你只能把枪法练到极致,现在的问题是,练枪的变成了AI。这不仅是技术的突破,更是资源限制倒逼出的进化路径。
---
ref: www.reddit.com/r/singularity/comments/1rkkolb/a_chinese_ai_lab_just_built_an_ai_that_writes/
##