音乐推荐平台因流量仅为视频平台的百分之一,可用训练数据极度匮乏,无法支撑训练一个足够大的专属教师模型。

《Zero-shot Cross-domain Knowledge Distillation: A Case study on YouTube Music》S Ranganathan, N Khani, S Andrews, C Lo… (2026)


音乐推荐平台因流量仅为视频平台的百分之一,可用训练数据极度匮乏,无法支撑训练一个足够大的专属教师模型。已有方法要么受困于过拟合,要么依赖混入视频域数据——后者引入训练不稳定性并造成跨域数据依赖。根本症结在于:小流量平台既缺数据,又缺一个"借得到"的老师。

本文的核心洞见是:把一个从未见过音乐数据的视频推荐巨型模型,重新看作一个可以零样本复用的软标签生成器。由此,"辅助蒸馏头"这一关键操作使问题得以解开——对于有对应任务的模型,蒸馏平行预测头;对于无共同任务的 Radio 模型,则插入一个仅用于训练、不上线服务的新任务塔,让视频域的"持续观看"信号迂回渗透进音乐模型的共享表示层。

这项工作真正留下的遗产是:跨域知识蒸馏在教师模型于目标域准确率更低时仍能提升学生模型,且增益会通过共享层溢出至未被蒸馏的任务——线上新内容互动提升最高达 11%。它为后来者打开的新门是:用一个已有的大域模型免费武装所有小流量子平台。但尚未跨过的门槛是:教师预测究竟携带了多少真实信号、多少领域偏见,目前缺乏系统性消融验证。

arxiv.org/abs/2603.28994

##





分类