寻找语音识别的工具

我有一些较长的录音,每个约1小时。

感觉听起来不如看文字效率高,想给它转成文字版。搜了一下没找到合适的工具。

请教大家是怎么处理的,有没有相应的语音识别的工具,可以直接调用的?

对了,是中文的

有对应的功能。

3 个赞

商业软件有科大讯飞,免费好像有几十小时

谢谢,这个看起来不错。

只是安装略有些繁琐,暂时还没试。现在不紧急,等我有空的时候试一试。

现成的平台我推荐飞书妙记,转成文字,还带时间戳,可以导出为srt,然后用 org-media-note 导入到org-mode~

网易见外工作台也不错,但是限制更多些,可以备用。

3 个赞

如果是 macOS/iPadOS/iOS 用户的话,可以考虑 VoiceExpress(macOS、iPadOS、iOS 通用)、Just Press Record(macOS、iPadOS/iOS 分别收费)大概原理是调用 Apple 的系统自带语音识别功能,好处是本地运行不用把自己的数据上传到云,坏处就是收费哈哈。

时隔将近一年,终于有了一款开源、离线的多语种语音识别/翻译工具。

我用两小时的英文播客测试了(macOS 13.0.1 M1+8GB RAM),选择 medium 模型的话要用两个半小时转录成文字(字幕),small 模型应该会快一些。如果不是 macOS 并且有显卡的话速度快很多。

GitHub

中文介绍

One More Thing

生成的字幕可以通过 subed 编辑,或使用 translate-mode 翻译。

4 个赞

cool 生成的字幕准确率高吗?

它的英语听力比我强,你让我怎么判断它的准确度 :laughing:

这东西也可以听中文和中英混合,只要发音正常,识别率在97%以上。

1 个赞

今年真是 AI 落地应用的爆发之年。

找到这个工具主要是听语音有时候不方便,最怕听不懂,而且加速后的声音有点奇怪,快进又怕错过什么。

文字就自由的多了,想看到哪儿就看到哪儿,速度由自己掌握,不懂的地方还能查单词。

2 个赞