【语音克隆】对Step-Audio-TTS-3B评测分析
2025年3月20日大约 1 分钟
一、测试环境
使用的是 https://openbayes.com/ 提供的线上平台.
二、测试过程
纳西妲
使用了短音频
语音克隆界面:
合成结果:440秒
短文本合成:15秒
更换更长的提示音频:
短文本合成:
钟离
参考音频:
合成:
三、个人感受
- 长文本合成测试后大半部分会直接遗忘/幻觉,需要手动分割文本去合成;
- 提示语音的模仿能力有限;
- 合成速度和文本长度有关、和硬件环境有关,做不到实时效果;
- 语音模型给我的感觉就是——大,对系统资源的需求量很大,内存条大约需要32G给程序、显存需要分配24G给程序。