我在X上刷到了一匹金色的骏马！

展菲发表于前天 21:06

我在X上刷到了一匹金色的骏马！！

然后我一不小心点进去了，就看见GLM-5上线了，然后我发现DeepSeek新模型也上线了。

我自己挖了挖发现。

GLM-5核心点有几个：

1. GLM-5 采用了与DeepSeek-V3相同的 DeepSeek Sparse Attention 稀疏注意力机制。
2. 总参数量约为 745B，但在推理时激活的参数量仅为 44B
3. 支持200K+ 的上下文窗口
4. 重点增强了复杂任务规划执行的能力。

DeepSeek这边就更有意思了，新模型在灰度更新里露出来了。

最关键的点只有一个：1M级别的超长上下文。

我觉得这个升级比较重要。

如果1M上下文真的稳了，很多任务会从多轮拉扯变成一次性给全量材料，再让它自己规划和执行。

根据技术社区的测试，它在不开深度思考模式的情况下，逻辑能力也明显提升。

我的群里很多人已经开始用了，大家放了很多case，GLM-5和DeepSeek新模型主要都在复杂coding任务规划处理上提升很多，看来这两家都不满足于能写代码，而是想进阶为能构建系统。

最近这半年你能明显感觉到，很多旗舰模型已经不满足于vibecoding那套爽感了。

以前大家爱测什么？

简单的前端网页，贪吃蛇游戏。

但这些case离真实工作太远，离复杂任务太远。

真实世界的任务不是让你生成一个页面就结束了，它是读一堆材料，提炼约束，做取舍，反复校对，还要能兜底。

它有上下文，有历史，有例外情况，有脏数据，有临时变更。

你会发现，模型如果只会做漂亮demo，就永远只能活在媒体的口中。

只有当它能处理长上下文，能做任务拆解，能把Agent跑起来，你才敢把它放进工作流。

我甚至觉得，接下来大模型的比拼会越来越朴素，从demo能力转向系统能力。

从这个角度看，我自己有一个挺强烈的感受：DeepSeek和智谱这两家，在coding上，目前都是最接近Claude Opus 4.5的。

页: [1]

一起港湾's Archiver

我在X上刷到了一匹金色的骏马！