找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 6|回复: 0

首次体验 qwen 3.5 27B dense 在单张 RTX 3090 显卡上的表现。

[复制链接]

5

主题

0

回帖

15

积分

新手上路

积分
15
发表于 昨天 21:51 | 显示全部楼层 |阅读模式
首次体验 qwen 3.5 27B dense 在单张 RTX 3090 显卡上的表现。


35 tok/s。从 4K 到 300K+ 上下文,速度没有下降。Hermes 4.3 初始速度为 35 tok/s,随着上下文填充,速度降至 15 tok/s。Qwen 密集型保持稳定。MoE 保持 112 tok/s 稳定。速度提升了 3 倍,但每个代币只有 30 亿活跃用户(总用户数为 350 亿)。架构权衡。

Q4_K_M 内存占用 16.7GB,原生上下文 262K。在 24GB 显存下,训练时缓存大小突破 376K 后达到上限。尝试使用 262K 的 q8 键值缓存,速度骤降至 11 tok/s。q4_0 键值缓存是最佳选择。必须启用闪存注意力机制。

内置推理模式。模型会逐步思考后再给出答案。完整的思维链经受住了第四季度量化分析的考验。超过 1799 条带有自我纠错循环的思维链。仅需一块消费级 GPU 即可运行。

只给了它一个提示:“用一个 HTML 文件构建一个实时粒子星系模拟”。3340 个令牌。95 秒。一次性运行。首次加载时运行。完整的推理和代码请见下方视频。

如果您想省去数小时的测试时间,以下是最佳配置:
llama-server -ngl 99 -c 262144 -fa on --cache-type-k q4_0 --cache-type-v q4_0

这只是热身。接下来是章鱼入侵者:10 个文件,3400 多行代码,完全没有控制。提示符 hermes 在 22% 处退出。

比预期更令人印象深刻。完整结果即将公布。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-8 07:37 , Processed in 0.191588 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表