找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

本文重新定义了我们该如何训练扩散模型的“潜空间”。这不仅是一个技术框架的改进,更是对生成模型底层逻辑的一次深度重构。

[复制链接]

2

主题

0

回帖

6

积分

新手上路

积分
6
发表于 4 小时前 | 显示全部楼层 |阅读模式
[LG]《Unified Latents (UL): How to train your latents》J Heek, E Hoogeboom, T Mensink, T Salimans [Google DeepMind Amsterdam] (2026)


本文重新定义了我们该如何训练扩散模型的“潜空间”。这不仅是一个技术框架的改进,更是对生成模型底层逻辑的一次深度重构。

长期以来,潜空间(Latent Space)一直是扩散模型的幕后功臣。从 Stable Diffusion 到各种视频生成模型,我们习惯于先用一个 VAE 将图像压缩,再在压缩后的空间里做扩散。但问题在于:这个潜空间到底该如何正则化?目前的做法大多依赖手动调整 KL 散度的权重,这更像是一种玄学,而非科学。

Unified Latents 的核心洞察非常深刻:既然我们最终要用扩散模型来对潜空间建模,那么在训练潜空间时,就应该直接引入扩散先验(Diffusion Prior)。
潜空间不应只是数据的压缩包,而应是生成模型的指南针。UL 框架通过将编码器的输出噪声与先验模型的最小噪声水平对齐,把复杂的 KL 项简化为了跨噪声水平的加权 MSE 损失。

这里涉及三个关键的技术支柱:
首先,编码器不再预测复杂的分布,而是输出带固定高斯噪声的确定性潜变量。
其次,将扩散先验与最小噪声水平对齐,实现对比特率(Bitrate)的严谨控制。
最后,在解码端使用重加权的 ELBO 损失(Sigmoid 权重)。
这三者结合,让潜空间在被编码的同时,就完成了针对后续扩散建模的“预演”。

生成模型中存在一个永恒的博弈:潜空间的 learnability(易学性)与信息密度之间的权衡。
如果潜空间包含太多细节,重建质量虽好,但扩散模型极难建模;如果信息太稀疏,模型好练了,但生成的图像会丢失高频细节。
完美的重建往往是生成的敌人,真正的优雅在于如何有目的地舍弃。UL 让我们能够系统地导航这种权衡,找到那个性能最优的“甜蜜点”。

实验结果令人振奋。在 ImageNet-512 上,UL 实现了 1.4 的 FID,不仅重建质量极高,且训练效率远超传统的 Stable Diffusion 潜空间。在视频生成任务 Kinetics-600 上,它更是创下了 1.3 FVD 的新纪录。
这意味着,通过更科学的潜空间设计,我们可以在更少的计算资源下,获得更真实、更细腻的生成效果。

这项研究最启发我的地方在于它对“精度”的思考。在理论上,一个未经过正则化的潜空间通道可以编码无限的信息,但在实践中,精度受限于机器精度和编码器的平滑度。
训练潜空间的过程,本质上是在定义机器理解世界的精度。UL 告诉我们,这种精度不应该是随机的,而应该是与下游任务(扩散建模)深度耦合的。

Unified Latents 为未来的基础模型提供了一个清晰的路线图:潜空间不应该是独立于生成过程的预处理步骤,而应该是整个生成流水线中有机的一环。随着模型规模的持续扩大,这种对比特率和信息流的精准掌控将变得至关重要。

论文详情:arxiv.org/abs/2602.17270
































本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-21 10:12 , Processed in 0.092000 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表