Taalas把llama3.1 build到chip上达到 17000 tokens/s （H200是230）引发轩然大波

莉月奶奶 发表于 2026-2-24 13:19:08

Taalas把llama3.1 build到chip上达到 17000 tokens/s （H200是230）引发轩然大波，这和asic跑路由和mac表有啥区别，所以这波做AI的大伙对原来的技术逻辑都一点不看吗。。。

兔子吃窝边肉 发表于 2026-2-24 13:19:34

我能想到的一个应用场景是视觉推理模型，作为机器人的行动大脑。机器人行动对每一步决策的延时要求很高，这种高速推理芯片可以让机器人每一步执行非常复杂的推理过程，同时保持实时性。

页: [1]

一起港湾's Archiver