最近做了一个 MP3 转文字工具,分享一下踩过的一些坑

最近在做一个音频转文字的小工具,主要是为了方便把课程、会议录音、播客等内容快速整理成文本。

整个过程踩了不少坑,记录一下,也欢迎大家交流。

主要遇到的几个问题:

  1. 长音频的处理一开始直接把一小时的音频丢给模型,显存占用和处理速度都不太理想,后来改成按时间切片,再合并结果,稳定了很多。
  2. 中文标点恢复纯 ASR 输出的文字可读性一般,后面增加了标点恢复之后,阅读体验改善很多。
  3. 不同格式兼容用户上传的格式比较杂,所以前面统一用 FFmpeg 转成标准 PCM,再进入识别流程,兼容性会好很多。
  4. 输出格式除了普通文本,还支持带时间轴的 Transcript,后续生成字幕(SRT)也比较方便。

目前做了一个在线 Demo,主要用于自己测试,也欢迎大家体验并提建议:

https://mp3totext.ai/

如果大家也做过 Whisper、Faster-Whisper 或者其他语音识别相关项目,也欢迎交流一下部署、性能优化或者模型选择方面的经验。

2 个赞