在大模型去毒化中,已有方法仅压低有害输出概率,是表层手术。线性探针可从隐层轻松恢复毒性方向,十例微调即逆转对齐。根因:输出层干预从未触及编码毒性的内部特征。
本文核心洞见:把去毒化重新看作逐token的表征擦除问题。通过梯度反转驱动的对抗判别器,在每个token位置迫使有毒续写的隐表征收敛至无毒对应物,令解码头无法区分二者,从根部切断毒性生成路径。
这项工作证明持久安全对齐必须发生在表征层而非输出层,打开了抗重学习、抗越狱攻击的表征工程范式。未跨过的门槛:验证仅限GPT-2与Gemma-2B,向更大模型及毒性之外有害能力的迁移尚属未知。
arxiv.org/abs/2602.23391
#