最近在做一个音频转文字的小工具,主要是为了方便把课程、会议录音、播客等内容快速整理成文本。
整个过程踩了不少坑,记录一下,也欢迎大家交流。
主要遇到的几个问题:
- 长音频的处理一开始直接把一小时的音频丢给模型,显存占用和处理速度都不太理想,后来改成按时间切片,再合并结果,稳定了很多。
- 中文标点恢复纯 ASR 输出的文字可读性一般,后面增加了标点恢复之后,阅读体验改善很多。
- 不同格式兼容用户上传的格式比较杂,所以前面统一用 FFmpeg 转成标准 PCM,再进入识别流程,兼容性会好很多。
- 输出格式除了普通文本,还支持带时间轴的 Transcript,后续生成字幕(SRT)也比较方便。
目前做了一个在线 Demo,主要用于自己测试,也欢迎大家体验并提建议:
如果大家也做过 Whisper、Faster-Whisper 或者其他语音识别相关项目,也欢迎交流一下部署、性能优化或者模型选择方面的经验。