Claude Sonnet 4.6:更快更强的实用主义者,但离完美还有距离(附选择建议)

【Claude Sonnet 4.6:更快更强的实用主义者,但离完美还有距离(附选择建议)】

Anthropic 刚刚推出了 Claude Sonnet 4.6,这是 Sonnet 系列迄今为止最强大的版本。在编码、计算机操作、长文本推理、任务规划、知识工作和设计等方面都有全面升级,还提供了测试版的 100 万 token 上下文窗口。

+ 接近 Opus 的智能,但价格更亲民

从基准测试来看,Sonnet 4.6 的表现全面提升,在智能水平上已经接近 Opus,但价格却实惠得多(每百万 token 输入 3 美元,输出 15 美元)。这意味着更多日常任务现在可以用更经济的方式完成。

特别值得一提的是计算机操作能力的大幅提升。早期用户反馈,它在导航复杂电子表格、填写多步骤网页表单等任务上已经达到接近人类的水平。

+ 100 万 token 上下文的遗憾

虽然 Anthropic 宣传了 100 万 token 的上下文窗口,但目前仅限 API 用户使用,并且需要额外付费。网页端和移动端用户仍然被限制在 20 万 token。这让不少用户感到失望。

长文本推理能力确实有了惊人的提升。在一项测试中(从 25.6 万 token 中找出 8 个正确信息),Sonnet 4.5 的准确率仅为 10.9%,而 Sonnet 4.6 飙升至 90.3%。这对于需要审查长文档或维护大型代码库的用户来说是巨大的改进。

+ Sonnet 和 Opus 该如何选择?

社区逐渐形成了一种共识:把 Opus 当作“思考者”,把 Sonnet 当作“执行者”。

Opus 擅长复杂推理、头脑风暴和架构设计,但有时会过度思考,反而导致简单任务出错。Sonnet 则更清晰简洁,特别适合日常问答、简单编码和办公任务。在财务和办公场景的基准测试中,Sonnet 甚至超越了 Opus。

一个实用的工作流程是:用 Opus 制定计划和架构,然后用 Sonnet 执行具体任务。在 Claude Code 中,你可以用 `/plan` 让 Opus 创建计划文档,然后将工作分配给 Sonnet 子代理。这样既能保证质量,又能节省成本。

+ 创意写作仍是痛点

对于创意写作用户来说,情况比较复杂。许多人抱怨 Sonnet 4.5 自 1 月以来写作质量明显下降。Sonnet 4.6 的表现似乎略有改善,但仍不如 4.5 刚发布时的水平。

在测试历史小说创作时,虽然对话质量有所提升,但仍然出现过多现代俚语,无法完全把握历史背景。不过积极的一面是,它能够流畅生成超过 8000 字的创意故事。

+ 每次发布都会出现的争议

和往常一样,新模型发布后总会有人抱怨“旧模型被削弱了”。但也有大量用户反驳说“每次发布都能看到这种评论”。客观数据显示,模型确实在持续改进,只是用户的主观感受可能因具体使用场景而异。

有趣的是,一位用户提到希望 Claude 能自动根据查询选择最合适的模型。对于普通用户来说,随着模型不断升级,确实越来越难以判断什么场景该用哪个模型。

+ 实用建议

如果你是 Pro Max 订阅用户,建议默认使用 Sonnet,只在需要深度思考时切换到 Opus。Sonnet 速度更快(比 Sonnet 4.5 快约 25%),成本更低,对于大多数任务已经足够。

对于 API 用户,如果需要处理超长文档,100 万 token 上下文的额外付费或许值得考虑(Sonnet 1M 版本每百万 token 输入 6 美元,输出 22.5 美元)。

总的来说,Sonnet 4.6 是一次稳健的升级,在保持经济性的同时显著提升了能力。虽然在某些领域(如创意写作)仍有改进空间,但对于编码、办公和数据分析等实用场景,它已经是一个相当强大的工具。

深度思考:

Sonnet 4.6 是目前市面上最均衡、最实用的 AI 模型之一。如果你需要一个能干活、跑得快、脑子好使且不算贵的“数字员工”,它是目前的版本答案。但如果你想寻找一个充满灵感的“艺术家”,或者想要在网页端免费体验超长上下文,它还会让你感到一丝距离。

一句话建议: 把 Sonnet 4.6 设为你的默认驱动,只在遇到最棘手的逻辑难题时,请出 Opus 作为外援。

reddit.com/r/ClaudeAI/comments/1r7d6am/this_is_claude_sonnet_46_our_most_capable_sonnet
分类