Ollama 官方消息:Ollama 0.19 开始使用苹果的 MLX 作为后端

Ollama 官方消息:Ollama 0.19 开始使用苹果的 MLX 作为后端,所以能更好地利用统一内存和 GPU 加速,在有 32G 内存的 M5 系列设备上运行 int4 量化的 Qwen3.5-35B-A3B 可以实现预填充 1851 token/s,生成 134 token/s。 http://t.cn/AXIKNdVW ​​​
分类