找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 3|回复: 0

在训练大模型时,如何给不同来源的数据(如网页、代码、教科书)分配权重?这个被称为“数据混合”(Data Mixing)的问题,正成为决定模型性能的关键。

[复制链接]

5

主题

0

回帖

15

积分

新手上路

积分
15
发表于 昨天 06:33 来自手机 | 显示全部楼层 |阅读模式
[LG]《Less is More: Convergence Benefits of Fewer Data Weight Updates over Longer Horizon》R Das, N Patel, M Razaviyayn, V Mirrokni [Google Research & EPFL] (2026)

在训练大模型时,如何给不同来源的数据(如网页、代码、教科书)分配权重?这个被称为“数据混合”(Data Mixing)的问题,正成为决定模型性能的关键。

本文挑战了目前主流的“贪婪”优化策略。他们发现,在调整数据权重时,慢一点,反而快一点。

以下是这篇论文的核心深度解析:

1. 优化中的“贪婪陷阱”
数据混合本质上是一个双层优化问题:内层循环优化模型参数,外层循环优化数据权重。为了节省计算资源,目前的 SOTA 方法(如 DoGE、PIKE)通常采用“贪婪”策略:每更新一次参数,就紧跟着更新一次权重。这种做法看似高效,实则引入了严重的“短视偏见”。

2. 频繁反馈往往是噪音
论文通过一个简单的二次函数示例证明:当更新跨度(Horizon)太短时,算法会被训练初期的局部波动误导,导致权重收敛到错误的方向。就像一个厨师在水还没烧开时就不断加盐,最终只会毁掉整锅汤。频繁的反馈并不能带来精准,反而掩盖了长期的泛化信号。

3.“少即是多”的收敛法则
研究者提出了一个反直觉的结论:在总计算预算固定的情况下,减少权重更新的频率,但增加每次更新前的“前瞻步数”(Lookahead Horizon),能够显著提升收敛效果。
- 在确定性梯度下,最佳更新跨度应随总预算的对数级(log N)增长。
- 在更接近现实的随机梯度(Stochastic)场景下,最佳跨度应随总预算的平方根级(sqrt{N log N})增长。

4. 寻找优化的“甜点区”
实验表明,性能与更新跨度之间存在一个“倒 U 型”关系。跨度太短,会被短视偏见误导;跨度太长,权重调整太慢,无法适应训练动态。真正的优化艺术,在于找到那个亚线性的、让模型有足够时间“消化”数据信号的中间值。

5. 深度思考:微观管理与长期主义
这项研究给 AI 训练带来了一个极具启发性的视角:在复杂系统的优化中,微观管理(每步必纠)往往会导致系统性的偏差。
金句:频繁的反馈往往是噪音,深度的沉淀才是信号。

6. 实践意义
对于正在开发数据课程(Data Curriculum)或动态混合算法的开发者来说,这项研究建议:停止对数据权重的过度微操。给内层优化留出足够的“前瞻”空间,让超梯度(Hypergradient)能够捕获到真正的长期泛化增益。

论文链接:arxiv.org/abs/2602.19510


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-26 07:22 , Processed in 0.169743 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表