你可以这么理解,AI 推理性能主要就看俩,算力和内存带宽,首 token 延迟主要由算力决定

你可以这么理解,AI 推理性能主要就看俩,算力和内存带宽,首 token 延迟主要由算力决定,每秒 token 数由带宽决定。
A20 Pro 总线位宽要是干到 96 bit,带宽轻松 100 多 GB/s,非常可观。 http://t.cn/AXSRPYwe ​​​

分类