【语音克隆】对Step-Audio-TTS-3B评测分析

Because2025年3月20日大约 1 分钟

一、测试环境

alt text
使用的是 https://openbayes.com/ 提供的线上平台.

二、测试过程

纳西妲
使用了短音频

语音克隆界面：

合成结果：440秒

短文本合成：15秒

更换更长的提示音频：

短文本合成：

钟离
参考音频：

合成：

三、个人感受

长文本合成测试后大半部分会直接遗忘/幻觉，需要手动分割文本去合成；
提示语音的模仿能力有限；
合成速度和文本长度有关、和硬件环境有关，做不到实时效果；
语音模型给我的感觉就是——大，对系统资源的需求量很大，内存条大约需要32G给程序、显存需要分配24G给程序。

贡献者