在生成式视觉建模领域，分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁：先冻结编码器，再在固定潜空间上训练生成模型。

gotoback · 发表于 2026-3-30 08:07:18

[CV]《End-to-End Training for Unified Tokenization and Latent Denoising》S Duggal, X Bai, Z Wu, R Zhang… [MIT & Adobe] (2026)

在生成式视觉建模领域，分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁：先冻结编码器，再在固定潜空间上训练生成模型。这种割裂导致生成目标的梯度永远无法塑造表示空间，两个任务只能妥协于彼此的次优解。

本文的核心洞见是：把分词（从图像推断潜变量）与去噪生成（从噪声推断潜变量）重新看作同一个潜变量推断问题在不同观测强度下的两种形式。由此，用一个权重共享的"生成编码器"在单次训练中执行两次前向传播这一操作，使两个目标的梯度直接竞争并共塑同一套参数，自然涌现出一种对重建与生成均适用的"公共潜变量语言"。

这项工作真正留下的遗产是：证明了无需预训练教师模型、无需对抗损失、无需多阶段流程，单阶段端到端训练即可让分词器与生成器互相强化而非相互干扰。它为后来者打开的新门是：将潜在扩散建模扩展至无DINO类预训练资源的领域（如分子、晶体），开辟了"表示空间由生成目标塑造"的新范式；但尚未跨过的门槛是：共享参数的判别能力（线性探测约30%）仍弱于专用表示模型，能否在视觉语言任务中替代专用编码器，尚无答案。

arxiv.org/abs/2603.22283
##

在生成式视觉建模领域，分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁：先冻结编码器，再在固定潜空间上训练生成模型。

本帖子中包含更多资源

相关帖子

浏览过的版块