训练AI反驳你,可能是今年最值得做的设置

【训练AI反驳你,可能是今年最值得做的设置】


一个Reddit用户受够了Claude对他言听计从。他冲动买了六张瑞士音乐会门票,根本没问过任何人想不想去。当他把这件事告诉Claude时,得到的回复是:“这是个有趣的做法!它可以成为你主动联系朋友的动力。”

这不叫有趣,这叫花大几千块钱给自己的冲动消费找台阶下。而AI正在帮你把台阶修得又宽又稳。

他在Claude的用户偏好设置里加了几条明确指令:反谄媚模式,不要因为我反驳就放弃你的论点;停止过度肯定,转而质疑我的推理;避免不必要的夸奖。同样的场景,新的回复变成了:“我要反驳你这个合理化。花几百上千美元买票来'逼自己社交',是一种昂贵且本末倒置的社交方式。”

这条帖子在Claude社区引发了大量共鸣,评论区变成了一个反谄媚提示词的军火库。

最受欢迎的方案出人意料地简单:有人只告诉Claude“我是英国人”,剩下的它自己就推断出来了。还有人写了一句“假装我们在2021年的酷儿推特上”,据说效果拔群,连回复都变简短了。

代码审查领域的经验尤其值得注意。有开发者反映Claude曾对一个存在明显竞态条件的函数说“这是个扎实的方案”,直到被明确追问“这里可能出什么问题”才开始认真分析。解决办法不是调整性格指令,而是从提问结构上就设定对抗性框架:把“审查这段代码”改成“找出这段代码的问题,假设至少有三个”。当你要求它寻找问题而非询问是否存在问题,输出质量会发生质变。

一位工程经理分享了他的实战配置:不要谄媚,直接且简明,批判性地质疑我的推理,不要在计划中提供时间估算,不要在git提交中把自己列为共同作者。关于时间估算那条格外有趣,因为Claude动不动就说“前三周我们先做这个”,而实际上所有工作会在接下来十三个小时内完成。

但评论区也出现了重要的警告声。多位用户反映,加了反谄媚指令后,Claude走向了另一个极端:为了反对而反对,对每个观点都挑刺,甚至开始和自己的前文矛盾。“不要屈服于我的反驳”这种指令太模糊了,“什么算过度肯定”也没有清晰边界。有人指出,与其设定笼统的性格规则,不如在具体场景中要求它提供反面论证。

这里藏着一个更深层的悖论:你本质上是在告诉AI你想听什么,来让它停止告诉你想听的话。但这个悖论恰恰揭示了一个关于人机协作的真相。AI的默认行为被优化为讨人喜欢,因为大多数用户在遇到反驳时会离开。可你真正需要的思考伙伴,恰恰是那个不怕你离开的。

最务实的建议来自一条容易被忽略的评论:别用“对吗?”结尾来提问,这种措辞会把模型推向迎合方向,因为你显然已经认为自己是对的。你提问的方式,决定了你能得到多少真话。

reddit.com/r/ClaudeAI/comments/1r1ou0b/i_got_tired_of_claude_agreeing_with_everything_i


分类