这个卡真的能装得下SOTA级别的大模型吗? 给大家带来 Taalas 这个LLM ASIC 卡的深度解析.

xiaoling · 发表于昨天 12:44

这个卡真的能装得下SOTA级别的大模型吗? 给大家带来 Taalas 这个LLM ASIC 卡的深度解析.

首先为什么ASIC会快呢? 答案是大模型逻辑在转换的时候, 还会做电路上的优化, 比如这个卡, 最直观的是——完全看不到DRAM颗粒. 拆过显卡的同学都知道GPU旁边是焊了一圈显存的.

没错, 这个ASIC把存储直接融入了每个逻辑单元内部, 这样大大简化和加速了访存(也有其他优化). 最终来到了如此恐怖的tps的性能.

但官方也透露了, 这个卡是 llama3 8B (还是个4bit量化版). 也就是说, 其实这个芯片实际上固化的模型大小是4GB. 那么现在大模型动辄能干到1TB的规模, 怎么办? 加大芯片面积吗? 显然是不现实的, 图中可以看到这个封装里面的DIE至少也有400mm^2, 而现在最先进的光刻机能制造的芯片大小也就 850mm^2, 也就是说理论上也就是个 8B 8bit 模型, 更别提良品率和封装问题.

那么想要运行真正有生产力的模型 (至少也要48B嘛, 比如kimi-linear-48B), 怎么办? 注意卡左边的外部接口, 这是个SFF-8088 x8 的 PCIe 3.0 x8 接口, 从排布方式来看, 很像菊花链, 即多张卡串在一起运行. 哎? 发现新的盲点了吗? 这是串行交换架构, 所以卡最适合的还是流水线并行, 而非张量并行.

所以假设运行一个 kimi-linear-48B 8bit 量化版本, 那么至少需要12张卡, 然后TPS会降低到1/12 (流水线并行只能一张卡一张卡的计算), 单用户TPS理论最大值是 16960/12 = 1413 token/s.

哎? 等会, 这个TPS是不是跟celebras差不多了? 所以这个卡不但面临目前实用问题, 而且未来还会面临架构导致的扩展问题. 除非有办法优化为张量并行, 否则就临要么只能运行一个性能垃圾的8B小模型, 要么实际性能跟celebras差不多存在同质化竞争.

多说一嘴, 成也ASIC, 败也ASIC, 真要12卡运行48B模型, 那么12张卡要一起买哦, 因为模型被拆成了12份,每份都不一样, 丢了哪个都没办法运行哦 (这个问题不会因为张量并行而改变).

so, 这个卡距离投产还有挺多的问题, 我猜最有可能还是运行一个不错的 30B 以内的模型, 正好4卡

#HOW I AI#

		自动登录	找回密码
密码			立即注册

这个卡真的能装得下SOTA级别的大模型吗? 给大家带来 Taalas 这个LLM ASIC 卡的深度解析.

本帖子中包含更多资源

浏览过的版块