找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2|回复: 0

据传,英伟达在 3 月的 GTC 2026(GPU 技术大会)上确实憋了大招。

[复制链接]

8

主题

2

回帖

38

积分

新手上路

积分
38
发表于 昨天 16:08 来自手机 | 显示全部楼层 |阅读模式
据传,英伟达在 3 月的 GTC 2026(GPU 技术大会)上确实憋了大招。目前的各种情报指向,老黄要推出一款代号可能为 “Blackwell-I”(Inference,推理专用)。

训练芯片(如 H100/B200)追求的是吞吐量和原始暴力;而推理芯片追求的是低延迟和高能效比。这次的新芯片据传采用了更激进的 FP4/FP6 数据格式,这意味着在同样的功耗下,推理速度可能直接翻倍。

推理最吃的是带宽(HBM),主要为了高并发。这款新芯片极大概率集成了更高规格的 HBM4

训练芯片的逻辑是,为了让 GPU 的数万个核心不闲着,必须一次性塞进去几百行数据(非常巨大的batch),推理芯片相当于Batch Size = 1,但是推理要求低延迟,高并发,能同时快速伺候大量独立请求,因此如果还是要坚持此前的“训推一体”,那必然再发展中出现两头不占的情况,优化的本质就是拿到更多先验知识后,把这些特点融入到设计中,从而拿到更好的结果。。

比如 某国内大模型 的 API,100万 Tokens 只要 1-2元。如果一个 Prompt 加上结果一共 1000个 Tokens(约 700 汉字),成本就是 0.001元 - 0.002元 。但是这个估计不赚钱,所以一定要从成本上下功夫。

推理成本如果能压到远低于 2 厘钱/prompt 甚至更低,AI 应用才会真正爆发, 才会真正实现token自由,包括英伟达在内的全体芯片同志们,还在继续努力,努力吧,同志们。

大家记住我这个数据,2厘,2厘啊 [泪]
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-3-2 07:26 , Processed in 0.161191 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表