有没有给有声书/杂志生成字幕时间轴的工具?

找到一些字幕时间轴生成/校准的工具都不符合需求:

这些工具,要么直接生成字幕文本,然后人工修订错别字。而有声书/杂志的文本是现成的,无须修订。

要么需要提供一份时间轴错误的字幕,然后生成正确的时间轴,而有声书/杂志的文本不带初始时间轴。

我希望:

$ tool book.wav book.txt > book.lrc

而不是:

$ tool1 book.wav > book_to-be-revised.lrc
$ tool2 book.wav incorrect.lrc > correct.lrc
2 个赞

【用这个办法自动打轴上字幕,几分钟就能生成一个100%正确的字幕!-哔哩哔哩】 https://b23.tv/37jnbXL

我用的是第一个视频介绍的网站,慕言。

第二个尝试过,没有成功,没有继续深入研究,您能力强可以试试。

1 个赞

前段时间看到这篇:EmacsConf 其中提到一个工具 GitHub - readbeyond/aeneas: aeneas is a Python/C library and a set of tools to automagically synchronize audio and text (aka forced alignment) ,不知道合不合适,没用过。

这种好像叫做 forced alignment,搜搜看还有没有别的工具。

1 个赞

刚看到这样一个工具,用了楼上说的aeneas技术。不过有三年没更新了

GitHub - pietrop/subtitlesComposer-app: A simple os x desktop app built in electron, using Aeneas under the hood to generate captions files from media(audio or video) and plain text transcriptions without time-codes.

(虽然说是osx desktop app, 但有linux版本,没有windows版本)

——我也是刚看见,还没来试用

1 个赞

没有阿里云账号,没试。看到注册设置什么都用视频讲解,我吓到了。

aeneas 效果不理想,而且需要先对文本手动断句,它的后续版本计划提供(根据语音停顿)自动断句的功能[1][2]

在 aeneas 之前先把文本机械式断句,效果同样差强人意。而且这个 app 有几个路径都是硬编码写死的,正常没法使用。

慕言,的自动打轴功能目前是免费的。

阿里云的自动智能语音识别有免费使用限制,但对于个人应该够了,到就是程序我没跑起来。

慕言不错,推荐尝试。

这个项目应该可以解决你的问题

这里是作者的演示视频

1 个赞

赞。

就是生成的格式有点偏。另外有时候声音和文本高亮有几个单词的落差。

其实是作者本身就是要这个效果,他的目的就是要做成带音频的电子书,而smil是epub支持的多媒体格式。

但其实我更想要srt的,宁可用播放器,可惜没找到能直接从smil转srt的软件,虽然可以写个脚本来干,还是挺烦的。

这个的原理跟aeneas相似,但是准确度远超aeneas。

我建议作者也写个适合普通影视剧字幕对齐的项目,可惜作者对字幕毫无兴趣。

另外,字节的剪映的对齐功能也很准,可惜有一次只能5000字符的限制,于是5~10分钟就得切割一次,大大降低了可用性。