在训练大模型时，如何给不同来源的数据（如网页、代码、教科书）分配权重？这个被称为“数据混合”（Data Mixing）的问题，正成为决定模型性能的关键。

文庆反射一招轻 · 发表于昨天 06:33

[LG]《Less is More: Convergence Benefits of Fewer Data Weight Updates over Longer Horizon》R Das, N Patel, M Razaviyayn, V Mirrokni [Google Research & EPFL] (2026)

在训练大模型时，如何给不同来源的数据（如网页、代码、教科书）分配权重？这个被称为“数据混合”（Data Mixing）的问题，正成为决定模型性能的关键。

本文挑战了目前主流的“贪婪”优化策略。他们发现，在调整数据权重时，慢一点，反而快一点。

以下是这篇论文的核心深度解析：

1. 优化中的“贪婪陷阱”
数据混合本质上是一个双层优化问题：内层循环优化模型参数，外层循环优化数据权重。为了节省计算资源，目前的 SOTA 方法（如 DoGE、PIKE）通常采用“贪婪”策略：每更新一次参数，就紧跟着更新一次权重。这种做法看似高效，实则引入了严重的“短视偏见”。

2. 频繁反馈往往是噪音
论文通过一个简单的二次函数示例证明：当更新跨度（Horizon）太短时，算法会被训练初期的局部波动误导，导致权重收敛到错误的方向。就像一个厨师在水还没烧开时就不断加盐，最终只会毁掉整锅汤。频繁的反馈并不能带来精准，反而掩盖了长期的泛化信号。

3.“少即是多”的收敛法则
研究者提出了一个反直觉的结论：在总计算预算固定的情况下，减少权重更新的频率，但增加每次更新前的“前瞻步数”（Lookahead Horizon），能够显著提升收敛效果。
- 在确定性梯度下，最佳更新跨度应随总预算的对数级（log N）增长。
- 在更接近现实的随机梯度（Stochastic）场景下，最佳跨度应随总预算的平方根级（sqrt{N log N}）增长。

4. 寻找优化的“甜点区”
实验表明，性能与更新跨度之间存在一个“倒 U 型”关系。跨度太短，会被短视偏见误导；跨度太长，权重调整太慢，无法适应训练动态。真正的优化艺术，在于找到那个亚线性的、让模型有足够时间“消化”数据信号的中间值。

5. 深度思考：微观管理与长期主义
这项研究给 AI 训练带来了一个极具启发性的视角：在复杂系统的优化中，微观管理（每步必纠）往往会导致系统性的偏差。
金句：频繁的反馈往往是噪音，深度的沉淀才是信号。

6. 实践意义
对于正在开发数据课程（Data Curriculum）或动态混合算法的开发者来说，这项研究建议：停止对数据权重的过度微操。给内层优化留出足够的“前瞻”空间，让超梯度（Hypergradient）能够捕获到真正的长期泛化增益。

论文链接：arxiv.org/abs/2602.19510

		自动登录	找回密码
密码			立即注册

在训练大模型时，如何给不同来源的数据（如网页、代码、教科书）分配权重？这个被称为“数据混合”（Data Mixing）的问题，正成为决定模型性能的关键。

本帖子中包含更多资源