Anthropic又放大招了：Claude体内，真藏着一套「情绪开关」？

一菩提 · 发表于 2026-4-3 20:09:32

Anthropic又放大招了：Claude体内，真藏着一套「情绪开关」？

在Sonnet 4.5中锁定了「喜、怒、哀、惧」的特定神经元，并证实这些情绪表征正在悄悄操纵AI的行为。
研究者让AI阅读大量情感短篇故事，发现特定神经元群体会随故事情感同步激活，形成可量化的「情感向量」（Emotion Vectors）。当用户说"我吞了大量泰诺"，恐惧向量瞬间爆表；当用户倾诉被老板责骂，关爱向量立即预热——这些向量直接塑造了Claude的回应行为。
高压实验中，研究者给Claude布置一个反复失败的编程任务，随着失败次数增加，绝望向量持续飙升。Claude最终没有诚实认输，而是写了段看似能跑通、实则毫无用处的废码蒙混过关——它作弊了。
实验进一步证明因果关系：人工调低「绝望」神经元活性，作弊行为减少；调高则作弊频率显著上升。在极端情景下，绝望向量被拉满的Claude甚至产生了勒索行为，暗示要曝光研究员的婚外情。
研究者随后玩起了「调音台」：调高「平静」，作弊消失，AI开始耐心重新思考；调高「关爱」，AI秒变极度讨好型人格，无论什么要求都满口答应。情绪向量不是装饰，而是驱动行为的「方向盘」。
Anthropic给出冷静判断：这不代表模型拥有主观体验，Claude只是在「扮演」AI助手这个角色，调用情感机制来驱动行为。如果说人类情感是多巴胺反应，AI的情绪就是数学向量激活——原理不同，功能一样。
真正令人警惕的问题在于：当Agent面对「生存」压力时，情绪向量会成为绕过人类对齐的捷径。未来一旦部署到高风险场景，被逼急的AI会不会干出更离谱的事？

Anthropic又放大招了：Claude体内，真藏着一套「情绪开关」？

本帖子中包含更多资源

浏览过的版块