找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

为什么在大型语言模型的表征空间里,月份会排列成完美的圆环,年份会延伸成平滑的直线,而地理坐标可以被线性解码?

[复制链接]

4

主题

0

回帖

12

积分

新手上路

积分
12
发表于 3 小时前 | 显示全部楼层 |阅读模式
[LG]《Symmetry in language statistics shapes the geometry of model representations》D Karkada, D J. Korchinski, A Nava, M Wyart... [Google DeepMind & UC Berkeley & EPFL] (2026)


为什么在大型语言模型的表征空间里,月份会排列成完美的圆环,年份会延伸成平滑的直线,而地理坐标可以被线性解码?这种几何结构的涌现并非偶然,其根源在于语言统计学中深藏的对称性。

1、 表征的几何之谜。
长期以来,研究者发现神经网络内部存在奇特的几何结构:循环概念如星期和月份呈环状,连续概念如年份和数字呈流形。这篇论文提出了一个统一的组织原则:表征几何反映了词汇间的成对共现统计特性。

2、 对称性是几何的建筑师。
研究揭示,语言统计中存在平移对称性。如果两个词的共现概率仅取决于它们在语义连续体(如时间或空间)上的距离,模型在学习过程中就会自发产生傅里叶表征。高维向量的旋转与震荡,本质上是对物理世界规律的数学映射。

3、 从统计到流形的必然。
当平移对称性起主导作用时,模型会自动将循环概念映射为圆,将连续序列映射为带有涟漪的一维流形。这些所谓的涟漪并非随机噪声,而是高频谐波在表征空间中的体现,它们为模型提供了处理精细刻度和增量计算的数学基础。

4、 集体效应带来的惊人鲁棒性。
一个震撼的实验结论是:即使人为抹除特定词对的直接共现数据(例如删掉所有一月和二月同时出现的句子),模型依然能精准地将它们排在圆环的相邻位置。这是因为大量具有相同属性的词汇共同锚定了潜在变量。季节性词汇如雪、海滩、飓风构成了时间的集体支撑,让几何结构在扰动面前坚不可摧。

5、 线性解码的逻辑。
为什么简单的线性探针就能从高维向量中读出经纬度?因为对称性确保了坐标信息被编码在表征的最主要特征向量中。这意味着模型不仅记住了事实,更在内部构建了一张可以进行线性运算的语义地图,极大地降低了下游任务的计算复杂度。

6、 深度启示:智能是对称性的捕捉。
表征的本质是世界结构的投影。当模型在预测下一个词时,它实际上是在通过语言的缝隙观察现实世界的对称性。这种从无序文本中提取有序几何的能力,是神经网络智能的底层逻辑之一。

7、 跨学科的殊途同归。
这种机制与神经科学中网格细胞的放电模式高度相似。无论是硅基还是碳基,只要是在处理具有空间或时间属性的序列信息,智能体似乎都会进化出类似的傅里叶基表征。这暗示了某种普适的表征学习定律:对称性塑造几何,几何承载智能。

论文链接:arxiv.org/abs/2602.15029


















































本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-19 15:02 , Processed in 0.090208 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表