Claude Sonnet 4.6发布,OpenAI该着急了吗?

【Claude Sonnet 4.6发布,OpenAI该着急了吗?】


Anthropic刚发布了Claude Sonnet 4.6,Reddit上OpenAI社区立刻炸了锅。有人调侃“OpenAI肯定憋着GPT-5.3准备反击”,也有人冷静分析“他们不会刻意压着新版本等对手出招”。

有意思的是用户反馈。一位开发者同时订阅了ChatGPT和Claude,做相同任务对比测试:Sonnet 30秒完成任务且精准执行指令,ChatGPT思考7分钟却只完成三成工作。他感慨“并排使用才发现差距如此悬殊”。另一位用户提到GPT-5.2经常拒绝执行请求,比如转录图片中的文字,而这在4o和其他AI上都能正常工作。他形容这种过度保护“像对待需要呵护的小猫”。

定价层面,Sonnet 4.6输入$3/百万token、输出$15,Opus 4.6是$5/$25。有人用openmark ai测试发现,多数场景下性能差距小于价格差距。一百万token上下文窗口的加入,也让Cursor这类代码编辑器感受到压力。

技术社区对SWE-bench Verified 80.2%的成绩存疑,因为官方备注“通过prompt修改实现”却没说明具体改了什么。这种语焉不详在benchmark竞赛中常见,数字好看但实际应用效果如何,还得用户自己验证。

更深层的分歧在于产品哲学。ChatGPT近期的“过度热情”人设和频繁的安全拒绝,让部分用户觉得被当作需要监护的对象。一位用户问能否用低音炮震动未吸尘地毯让灰尘扬起两英尺,Sonnet判定为不安全拒绝回答。后来发现触发词是“unvacuumed”这个拼写,单独发送都会暂停对话。这类过度审查源于品牌安全考量和规避法律风险,但用户体验的代价显而易见。

OpenAI内部据说GPT-5.3 Codex已经小范围测试一周。Codex版本设计上更小更快,但完整版发布时间依然未知。有用户注意到GPT-5.2最近表现下滑,这往往是新版本发布的前兆。不过也有声音认为,比起追求发布速度,把产品做对更重要。

这场较量本质上是两种路线之争:Anthropic强调可靠性和执行力,OpenAI试图平衡能力与安全边界。当一方用户抱怨“思考七分钟却只做三成工作”,另一方用户担心“模型会不会太激进”,说明通用AI产品很难让所有人满意。最终可能不是谁赢谁输,而是不同需求的用户各自找到适合的工具。

简评:

OpenAI当然该着急。

如果不着急,GPT-5.2将成为Google Bing一样的历史笑话——一个为了不出错而干脆不做事的产品。

Claude Sonnet 4.6的发布证明了:在LLM(大语言模型)的下一阶段,“可靠执行”比“深度思考”更值钱,“不瞎拒绝”比“极度安全”更讨喜。 OpenAI现在的处境就像是被架在火上烤,他们急需一个不那么“傲慢”、不那么“爱思考”但能“把活干完”的版本出来救场,否则,B端和开发者市场的天平已经不可逆转地向Anthropic倾斜了。

Reddit.com/r/OpenAI/comments/1r7dari/sonnet_46_released_wen_gpt_53
分类