找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1|回复: 0

[CL]《Attention Residuals》G Chen, Y Zhang, J Su, W Xu… [Kimi Team] (2026)

[复制链接]

10

主题

1

回帖

32

积分

新手上路

积分
32
发表于 2 小时前 来自手机 | 显示全部楼层 |阅读模式
[CL]《Attention Residuals》G Chen, Y Zhang, J Su, W Xu… [Kimi Team] (2026)

大型语言模型中,残差连接以固定权重均匀叠加所有层的输出,导致隐藏状态幅值随深度线性膨胀。深层网络被迫输出越来越大的值才能保持影响力,早期层的信息被淹没且无法被选择性召回——这是PreNorm架构的结构性缺陷,而非训练技巧可以修补的问题。

本文的核心洞见是:把跨层信息聚合重新看作一种注意力检索问题。残差连接本质上是对深度维度的线性注意力,那么完全可以将其升级为softmax注意力——每层用一个可学习的伪查询向量,对所有前驱层的输出计算归一化权重后加权求和。为解决全注意力在大规模训练中的显存与通信开销,将层分组为块、仅对块级摘要做跨块注意力,配合缓存流水线通信与两阶段计算,使开销控制在推理延迟增加不足2%。

这项工作真正留下的遗产是:证明深度维度的信息聚合与序列维度遵循相同的演化路径——从固定权重到可学习权重,再到输入相关的注意力机制,且这一升级在规模律实验中持续有效。它为后来者打开的新门是:深度维度注意力与序列维度注意力的统一框架,以及更优的深度架构设计偏好。但尚未跨过的门槛是:全注意力变体在当前硬件的显存墙面前仍受制于块粒度的近似,其完整潜力有待未来互联带宽改善后才能释放。

arxiv.org/abs/2603.15031


















##

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-22 14:55 , Processed in 0.133119 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表