我有一些较长的录音,每个约1小时。
感觉听起来不如看文字效率高,想给它转成文字版。搜了一下没找到合适的工具。
请教大家是怎么处理的,有没有相应的语音识别的工具,可以直接调用的?
对了,是中文的
我有一些较长的录音,每个约1小时。
感觉听起来不如看文字效率高,想给它转成文字版。搜了一下没找到合适的工具。
请教大家是怎么处理的,有没有相应的语音识别的工具,可以直接调用的?
对了,是中文的
有对应的功能。
商业软件有科大讯飞,免费好像有几十小时
谢谢,这个看起来不错。
只是安装略有些繁琐,暂时还没试。现在不紧急,等我有空的时候试一试。
如果是 macOS/iPadOS/iOS 用户的话,可以考虑 VoiceExpress(macOS、iPadOS、iOS 通用)、Just Press Record(macOS、iPadOS/iOS 分别收费)大概原理是调用 Apple 的系统自带语音识别功能,好处是本地运行不用把自己的数据上传到云,坏处就是收费哈哈。
时隔将近一年,终于有了一款开源、离线的多语种语音识别/翻译工具。
我用两小时的英文播客测试了(macOS 13.0.1 M1+8GB RAM),选择 medium 模型的话要用两个半小时转录成文字(字幕),small 模型应该会快一些。如果不是 macOS 并且有显卡的话速度快很多。
生成的字幕可以通过 subed 编辑,或使用 translate-mode 翻译。
cool 生成的字幕准确率高吗?
它的英语听力比我强,你让我怎么判断它的准确度
这东西也可以听中文和中英混合,只要发音正常,识别率在97%以上。
今年真是 AI 落地应用的爆发之年。
找到这个工具主要是听语音有时候不方便,最怕听不懂,而且加速后的声音有点奇怪,快进又怕错过什么。
文字就自由的多了,想看到哪儿就看到哪儿,速度由自己掌握,不懂的地方还能查单词。
既然 Buzz 基于 OpenAI 的 Whisper,直接用命令行更适合老旧电脑:
⋊> [~/D/curious-minds-podcast] time whisper --language English --model tiny \#424\ |\ A\ Brief\ History\ of\ Salt\ \[4KsXnsYJiko\].webm
/Users/*/.pyenv/versions/3.11.2/lib/python3.11/site-packages/whisper/transcribe.py:126: UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn("FP16 is not supported on CPU; using FP32 instead")
...
[16:05.080 --> 16:09.120] needs a little salt, and you reach for that little white container.
[16:09.120 --> 16:13.560] Well, you'll know a little bit more about the history of the most precious rock in
[16:13.560 --> 16:16.480] the world.
[16:16.480 --> 16:20.800] Oh, okay then, that is it for today's episode on salt.
[16:20.800 --> 16:24.880] I hope it's been an interesting one and that you've learned something new.
[16:24.880 --> 16:29.440] As always, I'd love to know what you thought about this episode, what words or expressions
[16:29.440 --> 16:31.920] come from salt in your language.
[16:31.920 --> 16:33.800] How would you describe salt?
[16:33.800 --> 16:38.240] And here's a trick you want to think about, how would the world be different where they
[16:38.240 --> 16:39.440] know salt?
[16:39.440 --> 16:43.000] I would love to know, so let's get this discussion started.
[16:43.000 --> 16:47.800] You can head right into our community forum, which is acumenity.lyonardofenglish.com and
[16:47.800 --> 16:51.000] get chatting away to other curious minds.
[16:51.000 --> 16:55.920] You've been listening to English learning for curious minds by Leonardo English.
[16:55.920 --> 17:01.000] I'm Alistair Bunch, you stay safe, and I'll catch you in the next episode.
________________________________________________________
Executed in 18.36 mins fish external
usr time 22.87 mins 0.24 millis 22.87 mins
sys time 2.75 mins 1.24 millis 2.75 mins
7# 楼第二个链接说 Buzz 的速度快于命令行 whisper,不知道是否有依据。
碎碎念
相较于 Autocut 功能更单一,专注于语音转文字、字幕生成。
相较于命令行 Python 版 Whisper 速度更快,有 GUI 对普通用户更友好。