假设我们有一个音频或视频文件和对应的文本,我们想将文稿和语音进行对齐(音文对齐、字幕对齐)。我们可以手动创建时间轴并复制文本,不过更方便的方法是使用计算机辅助我们完成这个任务:

  • 首先,识别语音以生成时间轴和对应的文本。
  • 然后,对识别的文本和已有的文本进行对齐。
  • 最后,根据文本长度确定时间轴和对齐的文本的关系。

计算机辅助音视频翻译工具Silhouette就是为此目的而设计的。

识别的结果:

识别的结果

对齐器:

对齐器

对齐的结果:

对齐的结果

注:如果识别的语音是准确的,我们不必这样做。这适用于音频质量不佳,导致识别结果不佳的情况。

延伸阅读

强制对齐(Forced Alignment)是计算语音片段和对应的文本的一个过程。

文本片段可以具有任意粒度:

  • 一个段落,
  • 一个句子,
  • 一个单词

实现的方式有很多。一种简单的方法是根据音节进行切分。

一般来说,这是一种自动的方法。但为了获得准确的结果,需要人工干预。这时Silhouette便可以派上用场。