从谷歌工程师到AI机器人创业者：一份自学路线图

没事找事 · 发表于 6 小时前

【从谷歌工程师到AI机器人创业者：一份自学路线图】

上周我宣布离开特斯拉，全身心投入AI和机器人领域的创业。很多人好奇：一个从未系统学过数学和AI的人，打算如何掌握这些全新领域？

先说说我的背景。我没上过大学，17岁开始自学编程，18岁进入谷歌，两年后加入特斯拉。作为软件工程师，我的工作从未真正需要深厚的数学功底，用LLM也不需要懂AI原理。但现在不一样了——我要做的是真正理解底层逻辑。

经过梳理，我把学习重点聚焦在两大板块：数学基础，以及AI与机器人学（二者在现代机器人研究中高度重叠）。

+ 数学：从代码重构公式

Jeremy Kun的《A Programmer's Introduction to Mathematics》成了我的主力教材。这本书最大的特点是用代码重构数学公式——对于看到公式就头疼的工程师来说，这种方式简直是救星。我会重点学习多项式、集合、图论、微积分、线性代数、特征值与特征向量、多元微积分与优化，以及群论等章节。

3Blue1Brown的《微积分本质》和《线性代数本质》系列作为补充。多年来我一直听说这些视频，但从未有动力去看。现在看来，动画确实能让抽象概念突然变得具象。

我没打算把自己变成数学家，只是需要足够的知识储备来理解AI论文和机器人算法。过度学习只会陷入焦虑，够用就好。

+ AI与机器人：从理论到实践的完整闭环

在书籍方面，CTO送了我Goodfellow等人的《Deep Learning》实体书。这本经典教材更像工具书，需要时翻阅。另一本是Marvin Minsky的《Society of Mind》，虽然与当前学习不直接相关，但在这个AI Agent时代，重温先驱的思想或许能带来意外启发。

视频课程我选择了几条经典路线：3Blue1Brown的神经网络系列用可视化打通直觉；Andrej Karpathy的《Neural Networks: Zero to Hero》从零开始构建；Michael Nielsen的《Neural Networks and Deep Learning》教授不会过时的基础原理；Fast.ai的《Practical Deep Learning》注重实战；MIT的《Robotic Manipulation》和Hugging Face的机器人课程则直指应用场景。

论文阅读是重中之重。从改变一切的《Attention Is All You Need》，到将Transformer应用于视觉的ViT，再到扩散模型背后的数学原理DDPM。在面试Yaak时，我精读的第一篇论文是Physical Intelligence的π₀论文——一个视觉-语言-行动流模型。这是我人生中读的第一篇学术论文，写得异常清晰。

此后的阅读清单包括：RT-2如何让视觉-语言模型直接输出机器人动作；Diffusion Policy将视觉运动策略表示为扩散过程；ACT论文揭示ALOHA背后的动作分块技术；Universal Manipulation Interface提供便携式数据收集方案；Octo展示开源通用机器人策略；以及Hugging Face团队撰写的机器人学习综述教程。

几篇关键博客也在我的必读列表：Karpathy的《训练神经网络的诀窍》是训练模型前的必读指南；李飞飞的《从语言到世界：空间智能》定义了Yaak所在的领域；还有图神经网络的入门介绍。

这份清单看起来很长，但我不会一股脑塞进大脑。学习是个渐进过程，重要的是方向清晰。

真正的学习从来不是线性的。当你理解了Transformer的注意力机制，再看视觉模型就豁然开朗；当你掌握了扩散模型的数学原理，机器人的行为策略突然变得可解释。知识之间存在隐秘的连接，你要做的是持续探索，直到这些点连成线。

autodidact（自学者）不是一个标签，而是一种选择——选择为自己的好奇心负责，选择在未知领域保持谦卑和兴奋。18岁进谷歌时我是这样，现在转向AI机器人依然如此。

x.com/pzrsaa/status/1879977175027110042

		自动登录	找回密码
密码			立即注册

从谷歌工程师到AI机器人创业者：一份自学路线图

本帖子中包含更多资源