Ollama 官方消息：Ollama 0.19 开始使用苹果的 MLX 作为后端

大水瓶

2026-04-01 21:43:32

Ollama 官方消息：Ollama 0.19 开始使用苹果的 MLX 作为后端，所以能更好地利用统一内存和 GPU 加速，在有 32G 内存的 M5 系列设备上运行 int4 量化的 Qwen3.5-35B-A3B 可以实现预填充 1851 token/s，生成 134 token/s。 http://t.cn/AXIKNdVW

相关阅读