展菲 发表于 前天 21:06

我在X上刷到了一匹金色的骏马!

我在X上刷到了一匹金色的骏马!!


然后我一不小心点进去了,就看见GLM-5上线了,然后我发现DeepSeek新模型也上线了。

我自己挖了挖发现。

GLM-5核心点有几个:

1. GLM-5 采用了与DeepSeek-V3相同的 DeepSeek Sparse Attention 稀疏注意力机制。
2. 总参数量约为 745B,但在推理时激活的参数量仅为 44B
3. 支持200K+ 的上下文窗口
4. 重点增强了复杂任务规划执行的能力。

DeepSeek这边就更有意思了,新模型在灰度更新里露出来了。

最关键的点只有一个:1M级别的超长上下文。

我觉得这个升级比较重要。

如果1M上下文真的稳了,很多任务会从多轮拉扯变成一次性给全量材料,再让它自己规划和执行。

根据技术社区的测试,它在不开深度思考模式的情况下,逻辑能力也明显提升。

我的群里很多人已经开始用了,大家放了很多case,GLM-5和DeepSeek新模型主要都在复杂coding任务规划处理上提升很多,看来这两家都不满足于能写代码,而是想进阶为能构建系统。

最近这半年你能明显感觉到,很多旗舰模型已经不满足于vibecoding那套爽感了。

以前大家爱测什么?

简单的前端网页,贪吃蛇游戏。

但这些case离真实工作太远,离复杂任务太远。

真实世界的任务不是让你生成一个页面就结束了,它是读一堆材料,提炼约束,做取舍,反复校对,还要能兜底。

它有上下文,有历史,有例外情况,有脏数据,有临时变更。

你会发现,模型如果只会做漂亮demo,就永远只能活在媒体的口中。

只有当它能处理长上下文,能做任务拆解,能把Agent跑起来,你才敢把它放进工作流。

我甚至觉得,接下来大模型的比拼会越来越朴素,从demo能力转向系统能力。

从这个角度看,我自己有一个挺强烈的感受:DeepSeek和智谱这两家,在coding上,目前都是最接近Claude Opus 4.5的。
页: [1]
查看完整版本: 我在X上刷到了一匹金色的骏马!