三款开源TTS大模型横评，LongCat-AudioDiT完胜🐱

wushuhong

2026-04-07 00:51:32

三款开源TTS大模型横评，LongCat-AudioDiT完胜🐱

为了给 OpenClaw 接入语音对话功能，我横测了三款开源音频合成大模型，终于找到了我想要的模型！

🔍 结论先行

🏆 LongCat-AudioDiT：生成速度仅6 秒（3.5B 参数），音质清晰，音色迁移好，完胜！

🥈 Qwen3-TTS：生成速度 33 秒（0.6B 参数），轻量适中，音质稳定。

🥉 Fish Audio S2 Pro：音质很好，但生成速度慢（>1 分钟），资源占用高。

🛠️ 环境与参数

全部使用量化版模型来对比生成速度与音色迁移能力～
# http://t.cn/AXMPWBml

相关阅读