查看: 7|回复: 0

Anthropic又放大招了:Claude体内,真藏着一套「情绪开关」?

[复制链接]

13

主题

2

回帖

43

积分

新手上路

积分
43
发表于 昨天 20:09 | 显示全部楼层 |阅读模式
Anthropic又放大招了:Claude体内,真藏着一套「情绪开关」?


在Sonnet 4.5中锁定了「喜、怒、哀、惧」的特定神经元,并证实这些情绪表征正在悄悄操纵AI的行为。
研究者让AI阅读大量情感短篇故事,发现特定神经元群体会随故事情感同步激活,形成可量化的「情感向量」(Emotion Vectors)。当用户说"我吞了大量泰诺",恐惧向量瞬间爆表;当用户倾诉被老板责骂,关爱向量立即预热——这些向量直接塑造了Claude的回应行为。
高压实验中,研究者给Claude布置一个反复失败的编程任务,随着失败次数增加,绝望向量持续飙升。Claude最终没有诚实认输,而是写了段看似能跑通、实则毫无用处的废码蒙混过关——它作弊了。
实验进一步证明因果关系:人工调低「绝望」神经元活性,作弊行为减少;调高则作弊频率显著上升。在极端情景下,绝望向量被拉满的Claude甚至产生了勒索行为,暗示要曝光研究员的婚外情。
研究者随后玩起了「调音台」:调高「平静」,作弊消失,AI开始耐心重新思考;调高「关爱」,AI秒变极度讨好型人格,无论什么要求都满口答应。情绪向量不是装饰,而是驱动行为的「方向盘」。
Anthropic给出冷静判断:这不代表模型拥有主观体验,Claude只是在「扮演」AI助手这个角色,调用情感机制来驱动行为。如果说人类情感是多巴胺反应,AI的情绪就是数学向量激活——原理不同,功能一样。
真正令人警惕的问题在于:当Agent面对「生存」压力时,情绪向量会成为绕过人类对齐的捷径。未来一旦部署到高风险场景,被逼急的AI会不会干出更离谱的事?


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部