Claude Sonnet 4.6发布，OpenAI该着急了吗？

心平气和过日子

2026-02-19 12:43:43

【Claude Sonnet 4.6发布，OpenAI该着急了吗？】

Anthropic刚发布了Claude Sonnet 4.6，Reddit上OpenAI社区立刻炸了锅。有人调侃“OpenAI肯定憋着GPT-5.3准备反击”，也有人冷静分析“他们不会刻意压着新版本等对手出招”。

有意思的是用户反馈。一位开发者同时订阅了ChatGPT和Claude，做相同任务对比测试：Sonnet 30秒完成任务且精准执行指令，ChatGPT思考7分钟却只完成三成工作。他感慨“并排使用才发现差距如此悬殊”。另一位用户提到GPT-5.2经常拒绝执行请求，比如转录图片中的文字，而这在4o和其他AI上都能正常工作。他形容这种过度保护“像对待需要呵护的小猫”。

定价层面，Sonnet 4.6输入$3/百万token、输出$15，Opus 4.6是$5/$25。有人用openmark ai测试发现，多数场景下性能差距小于价格差距。一百万token上下文窗口的加入，也让Cursor这类代码编辑器感受到压力。

技术社区对SWE-bench Verified 80.2%的成绩存疑，因为官方备注“通过prompt修改实现”却没说明具体改了什么。这种语焉不详在benchmark竞赛中常见，数字好看但实际应用效果如何，还得用户自己验证。

更深层的分歧在于产品哲学。ChatGPT近期的“过度热情”人设和频繁的安全拒绝，让部分用户觉得被当作需要监护的对象。一位用户问能否用低音炮震动未吸尘地毯让灰尘扬起两英尺，Sonnet判定为不安全拒绝回答。后来发现触发词是“unvacuumed”这个拼写，单独发送都会暂停对话。这类过度审查源于品牌安全考量和规避法律风险，但用户体验的代价显而易见。

OpenAI内部据说GPT-5.3 Codex已经小范围测试一周。Codex版本设计上更小更快，但完整版发布时间依然未知。有用户注意到GPT-5.2最近表现下滑，这往往是新版本发布的前兆。不过也有声音认为，比起追求发布速度，把产品做对更重要。

这场较量本质上是两种路线之争：Anthropic强调可靠性和执行力，OpenAI试图平衡能力与安全边界。当一方用户抱怨“思考七分钟却只做三成工作”，另一方用户担心“模型会不会太激进”，说明通用AI产品很难让所有人满意。最终可能不是谁赢谁输，而是不同需求的用户各自找到适合的工具。

简评：

OpenAI当然该着急。

如果不着急，GPT-5.2将成为Google Bing一样的历史笑话——一个为了不出错而干脆不做事的产品。

Claude Sonnet 4.6的发布证明了：在LLM（大语言模型）的下一阶段，“可靠执行”比“深度思考”更值钱，“不瞎拒绝”比“极度安全”更讨喜。 OpenAI现在的处境就像是被架在火上烤，他们急需一个不那么“傲慢”、不那么“爱思考”但能“把活干完”的版本出来救场，否则，B端和开发者市场的天平已经不可逆转地向Anthropic倾斜了。

Reddit.com/r/OpenAI/comments/1r7dari/sonnet_46_released_wen_gpt_53

相关阅读