查看: 6|回复: 0

三款开源TTS大模型横评，LongCat-AudioDiT完胜🐱

13 主题	0 回帖	49 积分

新手上路

积分: 49

发消息

发表于 3 小时前 | 显示全部楼层 |阅读模式

三款开源TTS大模型横评，LongCat-AudioDiT完胜🐱

为了给 OpenClaw 接入语音对话功能，我横测了三款开源音频合成大模型，终于找到了我想要的模型！

🔍 结论先行

🏆 LongCat-AudioDiT：生成速度仅6 秒（3.5B 参数），音质清晰，音色迁移好，完胜！

🥈 Qwen3-TTS：生成速度 33 秒（0.6B 参数），轻量适中，音质稳定。

🥉 Fish Audio S2 Pro：音质很好，但生成速度慢（>1 分钟），资源占用高。

🛠️ 环境与参数

全部使用量化版模型来对比生成速度与音色迁移能力～
# http://t.cn/AXMPWBml

how i ai, openclaw, comfyui, aigc, ai

三款开源TTS大模型横评，LongCat-AudioDiT完胜🐱

相关帖子