有没有靠谱的语音识别库或者服务?收费免费都可以。

最近在折腾语音识别,试了很多方案,没有一个能用的。 也可能我的实际环境不是用电脑麦克风收音,而是用4G模块插在USB上接听语音电话。 在这里跟大家交流一下折腾的情况,看看有没有更好的选择?

测试过的几个情况如下:

讯飞收费服务

一般对话大多数时候还可以,偶尔会抽疯

行业术语基本没法识别,设置了个性化热词之后,偶尔能起作用,大多数时候还是不行

https://console.xfyun.cn/services/iat

扣子的语音识别功能

准确率一般,术语没戏。

FunASR的paraformer模型

非流式的模型还可以,而且热词能够起作用,但是非实时模型不适用于实时对话的场景

流式模型不支持热词,没法处理行业术语,止步于“微调”,尝试了一下微调,但损失函数看不到收敛的样子。看资料说微调需要准备一千小时的语音,被劝退了。。。

azure 的语音识别,我测试下了比较满意

国外的服务没法做到国内的产品中。。。

这个开源的Whisper-large-v3你测试过吗,

it depends on GitHub - ggml-org/whisper.cpp: Port of OpenAI's Whisper model in C/C++

要安装本地模型,免费的

我机器太老了,intel最后一代MacBook air测试,识别一句话要5分钟

org-ai 用到了上述模块,演示如下:

刚刚是了一下,中文不行,比国内的模型差很远

国内模型,我最满意的是豆包上的语音识别,中文识别水平没让我失望过, 不知它用的是什么模型

我已开始就是折腾的扣子,但无法处理行业术语