寻找语音识别的工具

suliveevil · 2022 年12 月 3 日 02:36

时隔将近一年，终于有了一款开源、离线的多语种语音识别/翻译工具。

我用两小时的英文播客测试了（macOS 13.0.1 M1+8GB RAM），选择 medium 模型的话要用两个半小时转录成文字（字幕），small 模型应该会快一些。如果不是 macOS 并且有显卡的话速度快很多。

GitHub

中文介绍

小众软件官方论坛 – 22 Nov 22

Buzz：离线语音转文字（字幕），实时语音识别，基于 OpenAI Whisper

发现频道 🔍

软件名称 Buzz 功能简介实时语音转文字、实时翻译（需麦克风权限）导入音频、视频文件（mp3、wav、m4a、ogg、mp4、webm、ogm），导出逐句字幕或逐词字幕（导出格式：TXT、SRT、VTT）应用平台 Windows/Unix/macOS 推荐类型用户推荐官网碎碎念相较于 Autocut 功能更单一，专注于语音转文字、字幕生成。相较于命令行 Python 版 Whisper 速度更快，有 GUI 对普通用户更友好。

阅读时间: 2 mins 🕑 赞: 12 ❤

One More Thing

生成的字幕可以通过 subed 编辑，或使用 translate-mode 翻译。