在大模型去毒化中，已有方法仅压低有害输出概率，是表层手术。线性探针可从隐层轻松恢复毒性方向

红黑白蓝

2026-03-03 06:15:15

《Detoxifying LLMs via Representation Erasure-Based Preference Optimization》N M Sepahvand, E Triantafillou, H Larochelle, D Precup… (2026)

在大模型去毒化中，已有方法仅压低有害输出概率，是表层手术。线性探针可从隐层轻松恢复毒性方向，十例微调即逆转对齐。根因：输出层干预从未触及编码毒性的内部特征。

本文核心洞见：把去毒化重新看作逐token的表征擦除问题。通过梯度反转驱动的对抗判别器，在每个token位置迫使有毒续写的隐表征收敛至无毒对应物，令解码头无法区分二者，从根部切断毒性生成路径。

这项工作证明持久安全对齐必须发生在表征层而非输出层，打开了抗重学习、抗越狱攻击的表征工程范式。未跨过的门槛：验证仅限GPT-2与Gemma-2B，向更大模型及毒性之外有害能力的迁移尚属未知。

arxiv.org/abs/2602.23391

相关阅读