首页 / 博客 / 图片翻译 / 音视频翻译 / 支持 / 捐助 / 订阅
如何将音频和已有文本对齐
假设我们有一个音频或视频文件和对应的文本,我们想将文稿和语音进行对齐(音文对齐、字幕对齐)。我们可以手动创建时间轴并复制文本,不过更方便的方法是使用计算机辅助我们完成这个任务:
- 首先,识别语音以生成时间轴和对应的文本。
- 然后,对识别的文本和已有的文本进行对齐。
- 最后,根据文本长度确定时间轴和对齐的文本的关系。
计算机辅助音视频翻译工具Silhouette就是为此目的而设计的。
识别的结果:
对齐器:
对齐的结果:
注:如果识别的语音是准确的,我们不必这样做。这适用于音频质量不佳,导致识别结果不佳的情况。
延伸阅读
强制对齐(Forced Alignment)是计算语音片段和对应的文本的一个过程。
文本片段可以具有任意粒度:
- 一个段落,
- 一个句子,
- 一个单词
实现的方式有很多。一种简单的方法是根据音节进行切分。
一般来说,这是一种自动的方法。但为了获得准确的结果,需要人工干预。这时Silhouette便可以派上用场。
© 2025 BasicCAT ― Powered by Jekyll and Textlog theme