查看: 6|回复: 0

三款开源TTS大模型横评,LongCat-AudioDiT完胜🐱

[复制链接]

13

主题

0

回帖

49

积分

新手上路

积分
49
发表于 3 小时前 | 显示全部楼层 |阅读模式
三款开源TTS大模型横评,LongCat-AudioDiT完胜🐱


为了给 OpenClaw 接入语音对话功能,我横测了三款开源音频合成大模型,终于找到了我想要的模型!

🔍 结论先行

🏆 LongCat-AudioDiT:生成速度仅6 秒(3.5B 参数),音质清晰,音色迁移好,完胜!

🥈 Qwen3-TTS:生成速度 33 秒(0.6B 参数),轻量适中,音质稳定。

🥉 Fish Audio S2 Pro:音质很好,但生成速度慢(>1 分钟),资源占用高。

🛠️ 环境与参数

全部使用量化版模型来对比生成速度与音色迁移能力~
# http://t.cn/AXMPWBml

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部