寻找语音识别的工具

我有一些较长的录音,每个约1小时。

感觉听起来不如看文字效率高,想给它转成文字版。搜了一下没找到合适的工具。

请教大家是怎么处理的,有没有相应的语音识别的工具,可以直接调用的?

对了,是中文的

有对应的功能。

3 个赞

商业软件有科大讯飞,免费好像有几十小时

谢谢,这个看起来不错。

只是安装略有些繁琐,暂时还没试。现在不紧急,等我有空的时候试一试。

现成的平台我推荐飞书妙记,转成文字,还带时间戳,可以导出为srt,然后用 org-media-note 导入到org-mode~

网易见外工作台也不错,但是限制更多些,可以备用。

3 个赞

如果是 macOS/iPadOS/iOS 用户的话,可以考虑 VoiceExpress(macOS、iPadOS、iOS 通用)、Just Press Record(macOS、iPadOS/iOS 分别收费)大概原理是调用 Apple 的系统自带语音识别功能,好处是本地运行不用把自己的数据上传到云,坏处就是收费哈哈。

时隔将近一年,终于有了一款开源、离线的多语种语音识别/翻译工具。

我用两小时的英文播客测试了(macOS 13.0.1 M1+8GB RAM),选择 medium 模型的话要用两个半小时转录成文字(字幕),small 模型应该会快一些。如果不是 macOS 并且有显卡的话速度快很多。

GitHub

中文介绍

One More Thing

生成的字幕可以通过 subed 编辑,或使用 translate-mode 翻译。

4 个赞

cool 生成的字幕准确率高吗?

它的英语听力比我强,你让我怎么判断它的准确度 :laughing:

这东西也可以听中文和中英混合,只要发音正常,识别率在97%以上。

1 个赞

今年真是 AI 落地应用的爆发之年。

找到这个工具主要是听语音有时候不方便,最怕听不懂,而且加速后的声音有点奇怪,快进又怕错过什么。

文字就自由的多了,想看到哪儿就看到哪儿,速度由自己掌握,不懂的地方还能查单词。

2 个赞

既然 Buzz 基于 OpenAI 的 Whisper,直接用命令行更适合老旧电脑:

⋊> [~/D/curious-minds-podcast] time whisper --language English --model tiny \#424\ |\ A\ Brief\ History\ of\ Salt\ \[4KsXnsYJiko\].webm
/Users/*/.pyenv/versions/3.11.2/lib/python3.11/site-packages/whisper/transcribe.py:126: UserWarning: FP16 is not supported on CPU; using FP32 instead
  warnings.warn("FP16 is not supported on CPU; using FP32 instead")
  ...
[16:05.080 --> 16:09.120]  needs a little salt, and you reach for that little white container.
[16:09.120 --> 16:13.560]  Well, you'll know a little bit more about the history of the most precious rock in
[16:13.560 --> 16:16.480]  the world.
[16:16.480 --> 16:20.800]  Oh, okay then, that is it for today's episode on salt.
[16:20.800 --> 16:24.880]  I hope it's been an interesting one and that you've learned something new.
[16:24.880 --> 16:29.440]  As always, I'd love to know what you thought about this episode, what words or expressions
[16:29.440 --> 16:31.920]  come from salt in your language.
[16:31.920 --> 16:33.800]  How would you describe salt?
[16:33.800 --> 16:38.240]  And here's a trick you want to think about, how would the world be different where they
[16:38.240 --> 16:39.440]  know salt?
[16:39.440 --> 16:43.000]  I would love to know, so let's get this discussion started.
[16:43.000 --> 16:47.800]  You can head right into our community forum, which is acumenity.lyonardofenglish.com and
[16:47.800 --> 16:51.000]  get chatting away to other curious minds.
[16:51.000 --> 16:55.920]  You've been listening to English learning for curious minds by Leonardo English.
[16:55.920 --> 17:01.000]  I'm Alistair Bunch, you stay safe, and I'll catch you in the next episode.

________________________________________________________
Executed in   18.36 mins    fish           external
   usr time   22.87 mins    0.24 millis   22.87 mins
   sys time    2.75 mins    1.24 millis    2.75 mins

7# 楼第二个链接说 Buzz 的速度快于命令行 whisper,不知道是否有依据。

碎碎念

相较于 Autocut 功能更单一,专注于语音转文字、字幕生成。

相较于命令行 Python 版 Whisper 速度更快,有 GUI 对普通用户更友好。