djdumpling.github.io/2026/01/31/frontier_training.html
作者是耶鲁大学的Alex Wa
“实验室如何训练一个前沿的、多亿参数模型?我们关注七个开放权重的前沿模型:Hugging Face的SmolLM3、Prime Intellect的Intellect 3、Nous Research的Hermes 4、OpenAI的gpt-oss-120b、Moonshot的Kimi K2、DeepSeek的DeepSeek-R1和Arcee的Trinity系列。本博客旨在提炼训练这些模型时使用的技术、动机和考虑因素,重点放在训练方法论而非基础设施上。
这些笔记大致是根据Hugging Face的SmolLM3报告来构建的,因为该报告内容详尽,并且目前还补充了来自其他报告的笔记,包括Intellect-3、gpt-oss-120b、Hermes 4、DeepSeek和Kimi。尽管本博客探讨了一些与基础设施相关的理念,如实时权重更新和多客户端协调器,但这些帖子/博客中还提到了许多其他想法,如专家并行和量化。Hugging Face在此处写了更多关于gpt-oss-120b基础设施的内容。”