有哪些靠谱的基于深度学习的免费的 TTS?

试过 coqui-ai/TTS (★13k),转了一篇英文小短文,输出 3 分多钟的音频。前 1 分钟的效果非常好,与真人朗读无异,但后面就开始胡言乱语了,一个完整的音节都听不到。

NVIDIA/NeMo(★7.2k) 要求的 node 版本比较高,我的系统(macOS 10.13)无法支持。

还有个 mozilla/TTS (★7.6k), 从 README 看起来跟 coqui-ai/TTS 是同一个项目,但有两年没更新了。

各位有用过哪些 TTS 感觉比较靠谱的?

1 个赞

如果能接受云服务的话,微软有个每月 0.5 million 个字符免费的服务
要先注册帐号,然后绑定信用卡 :rofl: 可以设置消费上限(还是付费计划来着)避免扣钱
https://azure.microsoft.com/zh-cn/pricing/details/cognitive-services/speech-services/

1 个赞

我就是偶尔用一下,0.5 million 个字符应该够用。不知道它生成的音频能下载吗?

可以的,它 API 最后就是一个音频下载连接,支持很多格式。 你可以看看我之前发的这个 emacs 插件

1 个赞

试了这个帖子底下懒猫推荐的 GitHub - rany2/edge-tts: Use Microsoft Edge’s online text-to-speech service from Python (without needing Microsoft Edge/Windows or an API key) 。免注册,速度快,输出稳,还能生成字幕,就是声音比 coqui-ai/TTS 略微机械。

他的声音有很多不同的国家的人可以选择

前段时间很流行的 VITS 也可以做 TTS 吧,可以去 huggingface 上搜一下,有些会有在线 deemo, 先试运行再下载

我制作anki卡片的时候会用的hypertts插件,使用的就是azure的tts服务,总体用下来体验还是挺好的,但也不得不说有点小毛病,因为我需求的是日语的tts,会出现类似于中文当中断句错误的现象,这种时候只有在事后发现了之后再手动把文本改成假名,生成语音,然后再把文本改回汉字,有点儿麻烦。

微软的那个tts有人做了个网站能直接用,效果很好

但是每天两千字,不是大批量的还好

换了其他声音简单试了还是觉得略微有点机械,特别是默认的美国女声,有点像老外TikTok常见的旁白女声的调调。不过好处是输出干净,不像 coqui-ai/TTS 会有杂音。

这俩生成的声音是一样的吗,我听不出来差别:

我也听不出来,不过 VITS 厉害的地方好像是可以“克隆”别人的声音