最近在折腾语音识别,试了很多方案,没有一个能用的。 也可能我的实际环境不是用电脑麦克风收音,而是用4G模块插在USB上接听语音电话。 在这里跟大家交流一下折腾的情况,看看有没有更好的选择?
测试过的几个情况如下:
讯飞收费服务
一般对话大多数时候还可以,偶尔会抽疯
行业术语基本没法识别,设置了个性化热词之后,偶尔能起作用,大多数时候还是不行
https://console.xfyun.cn/services/iat
扣子的语音识别功能
准确率一般,术语没戏。
FunASR的paraformer模型
非流式的模型还可以,而且热词能够起作用,但是非实时模型不适用于实时对话的场景
流式模型不支持热词,没法处理行业术语,止步于“微调”,尝试了一下微调,但损失函数看不到收敛的样子。看资料说微调需要准备一千小时的语音,被劝退了。。。