English 中文

首页 / 博客 / 图片翻译 / 音视频翻译 / 支持 / 捐助 / 订阅

如何将音频和已有文本对齐

2025年2月23日 · #silhouette

假设我们有一个音频或视频文件和对应的文本，我们想将文稿和语音进行对齐（音文对齐、字幕对齐）。我们可以手动创建时间轴并复制文本，不过更方便的方法是使用计算机辅助我们完成这个任务：

首先，识别语音以生成时间轴和对应的文本。
然后，对识别的文本和已有的文本进行对齐。
最后，根据文本长度确定时间轴和对齐的文本的关系。

计算机辅助音视频翻译工具Silhouette就是为此目的而设计的。

识别的结果：

识别的结果

对齐器：

对齐器

对齐的结果：

对齐的结果

注：如果识别的语音是准确的，我们不必这样做。这适用于音频质量不佳，导致识别结果不佳的情况。

延伸阅读

强制对齐（Forced Alignment）是计算语音片段和对应的文本的一个过程。

文本片段可以具有任意粒度：

一个段落，
一个句子，
一个单词

实现的方式有很多。一种简单的方法是根据音节进行切分。

一般来说，这是一种自动的方法。但为了获得准确的结果，需要人工干预。这时Silhouette便可以派上用场。

上一篇下一篇

© 2025 BasicCAT ― Powered by Jekyll and Textlog theme