查看: 7|回复: 0

在生成式视觉建模领域,分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁:先冻结编码器,再在固定潜空间上训练生成模型。

[复制链接]

10

主题

1

回帖

42

积分

新手上路

积分
42
发表于 昨天 08:07 | 显示全部楼层 |阅读模式
[CV]《End-to-End Training for Unified Tokenization and Latent Denoising》S Duggal, X Bai, Z Wu, R Zhang… [MIT & Adobe] (2026)


在生成式视觉建模领域,分词器与扩散模型必须分阶段训练是一个被默认接受的工程枷锁:先冻结编码器,再在固定潜空间上训练生成模型。这种割裂导致生成目标的梯度永远无法塑造表示空间,两个任务只能妥协于彼此的次优解。


本文的核心洞见是:把分词(从图像推断潜变量)与去噪生成(从噪声推断潜变量)重新看作同一个潜变量推断问题在不同观测强度下的两种形式。由此,用一个权重共享的"生成编码器"在单次训练中执行两次前向传播这一操作,使两个目标的梯度直接竞争并共塑同一套参数,自然涌现出一种对重建与生成均适用的"公共潜变量语言"。


这项工作真正留下的遗产是:证明了无需预训练教师模型、无需对抗损失、无需多阶段流程,单阶段端到端训练即可让分词器与生成器互相强化而非相互干扰。它为后来者打开的新门是:将潜在扩散建模扩展至无DINO类预训练资源的领域(如分子、晶体),开辟了"表示空间由生成目标塑造"的新范式;但尚未跨过的门槛是:共享参数的判别能力(线性探测约30%)仍弱于专用表示模型,能否在视觉语言任务中替代专用编码器,尚无答案。


arxiv.org/abs/2603.22283
##





















本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部