有没有给有声书/杂志生成字幕时间轴的工具？

twlz0ne · 2023 年2 月 28 日 15:00

找到一些字幕时间轴生成/校准的工具都不符合需求：

这些工具，要么直接生成字幕文本，然后人工修订错别字。而有声书/杂志的文本是现成的，无须修订。

要么需要提供一份时间轴错误的字幕，然后生成正确的时间轴，而有声书/杂志的文本不带初始时间轴。

我希望：

$ tool book.wav book.txt > book.lrc

而不是：

$ tool1 book.wav > book_to-be-revised.lrc
$ tool2 book.wav incorrect.lrc > correct.lrc

czqhurricane · 2023 年2 月 28 日 15:26

【用这个办法自动打轴上字幕，几分钟就能生成一个100%正确的字幕！-哔哩哔哩】 https://b23.tv/37jnbXL

我用的是第一个视频介绍的网站，慕言。

第二个尝试过，没有成功，没有继续深入研究，您能力强可以试试。

SuperMMX · 2023 年2 月 28 日 21:17

这种好像叫做 forced alignment，搜搜看还有没有别的工具。

bamanzi · 2023 年3 月 2 日 02:08

刚看到这样一个工具，用了楼上说的aeneas技术。不过有三年没更新了

（虽然说是osx desktop app, 但有linux版本，没有windows版本）

——我也是刚看见，还没来试用

twlz0ne · 2023 年3 月 3 日 02:55

没有阿里云账号，没试。看到注册设置什么都用视频讲解，我吓到了。

aeneas 效果不理想，而且需要先对文本手动断句，它的后续版本计划提供(根据语音停顿)自动断句的功能^[1]^[2]。

在 aeneas 之前先把文本机械式断句，效果同样差强人意。而且这个 app 有几个路径都是硬编码写死的，正常没法使用。

czqhurricane · 2023 年3 月 3 日 03:00

慕言，的自动打轴功能目前是免费的。

阿里云的自动智能语音识别有免费使用限制，但对于个人应该够了，到就是程序我没跑起来。

慕言不错，推荐尝试。

echoIIImk2 · 2023 年5 月 29 日 07:53

这个项目应该可以解决你的问题

这里是作者的演示视频

twlz0ne · 2023 年6 月 1 日 00:09

赞。

就是生成的格式有点偏。另外有时候声音和文本高亮有几个单词的落差。

echoIIImk2 · 2023 年6 月 1 日 05:17

其实是作者本身就是要这个效果，他的目的就是要做成带音频的电子书，而smil是epub支持的多媒体格式。

但其实我更想要srt的，宁可用播放器，可惜没找到能直接从smil转srt的软件，虽然可以写个脚本来干，还是挺烦的。

这个的原理跟aeneas相似，但是准确度远超aeneas。

我建议作者也写个适合普通影视剧字幕对齐的项目，可惜作者对字幕毫无兴趣。

另外，字节的剪映的对齐功能也很准，可惜有一次只能5000字符的限制，于是5~10分钟就得切割一次，大大降低了可用性。