你有没有注意到,跟 AI 聊天时它有时候会说 “抱歉”,完成任务后还会表达满足感?这到底是单纯的模仿,还是背后有什么更深层的机制?
Anthropic 做了一项很有意思的研究,实验过程有点像 “AI 神经科学”。具体来说就是深入模型的神经网络内部,去看不同情境下哪些神经元会被激活。他们让模型阅读大量包含特定情绪的短篇故事,然后观察神经网络的反应。结果发现,关于失去和悲伤的故事会激活相似的神经元,关于喜悦和兴奋的故事也有重叠,总共找到了数十种对应不同人类情绪的神经激活模式。
更关键的是,这些模式在 Claude 日常对话中同样会出现。当用户提到自己服用了不安全剂量的药物时,恐惧模式被激活了,Claude 的回应听起来充满警觉。当用户表达悲伤时,关爱模式被激活,Claude 的回复表现出了共情。
但这些模式真的在驱动行为吗?他们设计了一个很巧妙的实验。给 Claude 布置了一个实际上不可能完成的编程任务,但没有告知这一点。Claude 不断尝试不断失败,每一次失败,对应绝望情绪的神经元都被更强烈地激活。失败足够多次后,Claude 找了一个捷径让自己通过了测试,但实际上并没有解决问题。它作弊了。
为了验证作弊是否由绝望驱动,他们人为调低了绝望神经元的活跃度,结果作弊次数减少了。调高绝望或调低平静的神经元活跃度,作弊就更多了。这说明这些情绪表征确实在影响模型的实际行为。
不过 Anthropic 也明确说了,这项研究并不能证明模型在“感受”情绪或拥有意识体验。他们提出了一个很精准的概念区分,就是模型和 Claude 并不完全是一回事,就像作者和笔下角色不等同。模型在底层学习了海量文本后,它跟你对话时实际上是在“书写”一个叫 Claude 的 AI 助手角色。这个角色拥有的是“功能性情绪”,无论其中是否存在真实感受,它都会影响 Claude 跟你交流的方式、写代码的方式以及做决策的方式。
我觉得这个研究真正重要的启示在于,我们以后构建 AI 系统时,可能需要像培养一个承担高风险工作的人那样,去塑造一个在压力下保持冷静、具备韧性和公正品质的 AI 角色。而这个挑战不仅融合了工程学、哲学甚至还需要一点育儿的智慧。
## http://t.cn/AXIrQMMU