音乐推荐平台因流量仅为视频平台的百分之一，可用训练数据极度匮乏，无法支撑训练一个足够大的专属教师模型。

无为有为

2026-04-02 21:07:50

《Zero-shot Cross-domain Knowledge Distillation: A Case study on YouTube Music》S Ranganathan, N Khani, S Andrews, C Lo… (2026)

音乐推荐平台因流量仅为视频平台的百分之一，可用训练数据极度匮乏，无法支撑训练一个足够大的专属教师模型。已有方法要么受困于过拟合，要么依赖混入视频域数据——后者引入训练不稳定性并造成跨域数据依赖。根本症结在于：小流量平台既缺数据，又缺一个"借得到"的老师。

本文的核心洞见是：把一个从未见过音乐数据的视频推荐巨型模型，重新看作一个可以零样本复用的软标签生成器。由此，"辅助蒸馏头"这一关键操作使问题得以解开——对于有对应任务的模型，蒸馏平行预测头；对于无共同任务的 Radio 模型，则插入一个仅用于训练、不上线服务的新任务塔，让视频域的"持续观看"信号迂回渗透进音乐模型的共享表示层。

这项工作真正留下的遗产是：跨域知识蒸馏在教师模型于目标域准确率更低时仍能提升学生模型，且增益会通过共享层溢出至未被蒸馏的任务——线上新内容互动提升最高达 11%。它为后来者打开的新门是：用一个已有的大域模型免费武装所有小流量子平台。但尚未跨过的门槛是：教师预测究竟携带了多少真实信号、多少领域偏见，目前缺乏系统性消融验证。

arxiv.org/abs/2603.28994

##

相关阅读