有没有给有声书/杂志生成字幕时间轴的工具?

找到一些字幕时间轴生成/校准的工具都不符合需求:

这些工具,要么直接生成字幕文本,然后人工修订错别字。而有声书/杂志的文本是现成的,无须修订。

要么需要提供一份时间轴错误的字幕,然后生成正确的时间轴,而有声书/杂志的文本不带初始时间轴。

我希望:

$ tool book.wav book.txt > book.lrc

而不是:

$ tool1 book.wav > book_to-be-revised.lrc
$ tool2 book.wav incorrect.lrc > correct.lrc

【用这个办法自动打轴上字幕,几分钟就能生成一个100%正确的字幕!-哔哩哔哩】 https://b23.tv/37jnbXL

我用的是第一个视频介绍的网站,慕言。

第二个尝试过,没有成功,没有继续深入研究,您能力强可以试试。

1 个赞

前段时间看到这篇:EmacsConf 其中提到一个工具 GitHub - readbeyond/aeneas: aeneas is a Python/C library and a set of tools to automagically synchronize audio and text (aka forced alignment) ,不知道合不合适,没用过。

这种好像叫做 forced alignment,搜搜看还有没有别的工具。

1 个赞

刚看到这样一个工具,用了楼上说的aeneas技术。不过有三年没更新了

GitHub - pietrop/subtitlesComposer-app: A simple os x desktop app built in electron, using Aeneas under the hood to generate captions files from media(audio or video) and plain text transcriptions without time-codes.

(虽然说是osx desktop app, 但有linux版本,没有windows版本)

——我也是刚看见,还没来试用

1 个赞

没有阿里云账号,没试。看到注册设置什么都用视频讲解,我吓到了。

aeneas 效果不理想,而且需要先对文本手动断句,它的后续版本计划提供(根据语音停顿)自动断句的功能[1][2]

在 aeneas 之前先把文本机械式断句,效果同样差强人意。而且这个 app 有几个路径都是硬编码写死的,正常没法使用。

慕言,的自动打轴功能目前是免费的。

阿里云的自动智能语音识别有免费使用限制,但对于个人应该够了,到就是程序我没跑起来。

慕言不错,推荐尝试。