xiaoling 发表于 昨天 12:44

这个卡真的能装得下SOTA级别的大模型吗? 给大家带来 Taalas 这个LLM ASIC 卡的深度解析.

这个卡真的能装得下SOTA级别的大模型吗? 给大家带来 Taalas 这个LLM ASIC 卡的深度解析.


首先为什么ASIC会快呢? 答案是大模型逻辑在转换的时候, 还会做电路上的优化, 比如这个卡, 最直观的是——完全看不到DRAM颗粒. 拆过显卡的同学都知道GPU旁边是焊了一圈显存的.

没错, 这个ASIC把存储直接融入了每个逻辑单元内部, 这样大大简化和加速了访存(也有其他优化). 最终来到了如此恐怖的tps的性能.

但官方也透露了, 这个卡是 llama3 8B (还是个4bit量化版). 也就是说, 其实这个芯片实际上固化的模型大小是4GB. 那么现在大模型动辄能干到1TB的规模, 怎么办? 加大芯片面积吗? 显然是不现实的, 图中可以看到这个封装里面的DIE至少也有400mm^2, 而现在最先进的光刻机能制造的芯片大小也就 850mm^2, 也就是说理论上也就是个 8B 8bit 模型, 更别提良品率和封装问题.

那么想要运行真正有生产力的模型 (至少也要48B嘛, 比如kimi-linear-48B), 怎么办? 注意卡左边的外部接口, 这是个SFF-8088 x8 的 PCIe 3.0 x8 接口, 从排布方式来看, 很像菊花链, 即多张卡串在一起运行. 哎? 发现新的盲点了吗? 这是串行交换架构, 所以卡最适合的还是流水线并行, 而非张量并行.

所以假设运行一个 kimi-linear-48B 8bit 量化版本, 那么至少需要12张卡, 然后TPS会降低到1/12 (流水线并行只能一张卡一张卡的计算), 单用户TPS理论最大值是 16960/12 = 1413 token/s.

哎? 等会, 这个TPS是不是跟celebras差不多了? 所以这个卡不但面临目前实用问题, 而且未来还会面临架构导致的扩展问题. 除非有办法优化为张量并行, 否则就临要么只能运行一个性能垃圾的8B小模型, 要么实际性能跟celebras差不多存在同质化竞争.

多说一嘴, 成也ASIC, 败也ASIC, 真要12卡运行48B模型, 那么12张卡要一起买哦, 因为模型被拆成了12份,每份都不一样, 丢了哪个都没办法运行哦 (这个问题不会因为张量并行而改变).

so, 这个卡距离投产还有挺多的问题, 我猜最有可能还是运行一个不错的 30B 以内的模型, 正好4卡

#HOW I AI#


页: [1]
查看完整版本: 这个卡真的能装得下SOTA级别的大模型吗? 给大家带来 Taalas 这个LLM ASIC 卡的深度解析.