找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 7|回复: 0

我在X上刷到了一匹金色的骏马!

[复制链接]

6

主题

0

回帖

18

积分

新手上路

积分
18
发表于 昨天 21:06 | 显示全部楼层 |阅读模式
我在X上刷到了一匹金色的骏马!!


然后我一不小心点进去了,就看见GLM-5上线了,然后我发现DeepSeek新模型也上线了。

我自己挖了挖发现。

GLM-5核心点有几个:

1. GLM-5 采用了与DeepSeek-V3相同的 DeepSeek Sparse Attention 稀疏注意力机制。
2. 总参数量约为 745B,但在推理时激活的参数量仅为 44B
3. 支持200K+ 的上下文窗口
4. 重点增强了复杂任务规划执行的能力。

DeepSeek这边就更有意思了,新模型在灰度更新里露出来了。

最关键的点只有一个:1M级别的超长上下文。

我觉得这个升级比较重要。

如果1M上下文真的稳了,很多任务会从多轮拉扯变成一次性给全量材料,再让它自己规划和执行。

根据技术社区的测试,它在不开深度思考模式的情况下,逻辑能力也明显提升。

我的群里很多人已经开始用了,大家放了很多case,GLM-5和DeepSeek新模型主要都在复杂coding任务规划处理上提升很多,看来这两家都不满足于能写代码,而是想进阶为能构建系统。

最近这半年你能明显感觉到,很多旗舰模型已经不满足于vibecoding那套爽感了。

以前大家爱测什么?

简单的前端网页,贪吃蛇游戏。

但这些case离真实工作太远,离复杂任务太远。

真实世界的任务不是让你生成一个页面就结束了,它是读一堆材料,提炼约束,做取舍,反复校对,还要能兜底。

它有上下文,有历史,有例外情况,有脏数据,有临时变更。

你会发现,模型如果只会做漂亮demo,就永远只能活在媒体的口中。

只有当它能处理长上下文,能做任务拆解,能把Agent跑起来,你才敢把它放进工作流。

我甚至觉得,接下来大模型的比拼会越来越朴素,从demo能力转向系统能力。

从这个角度看,我自己有一个挺强烈的感受:DeepSeek和智谱这两家,在coding上,目前都是最接近Claude Opus 4.5的。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-22 07:45 , Processed in 0.103130 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表