BasicCAT — Computer-Aided Translation (CAT) Tools

本地漫画翻译软件

Sat, 05 Apr 2025 06:14:50 +0000

随着深度学习等人工智能技术的发展，我们已经可以在个人电脑上本地离线运行漫画翻译软件了。本文会介绍如何配置计算机辅助图片翻译软件ImageTrans在本地电脑上无限制地翻译日语漫画。

用到的软件

ImageTrans：一体化的图片翻译软件，支持OCR识别文字、调用AI翻译、抹除原文和回嵌译文。
本地大模型软件，例如LM Studio、Ollama，来调用Deepseek、qwen、sakuraLLM等模型。本文会用到Ollama。

启动本地服务

启动本地mangaOCR服务，供ImageTrans调用以识别日语。具体操作说明。如果需要翻译其它语言，可以使用其它提供的本地服务。
安装并运行Ollama，执行以下命令下载阿里的千问大语言模型：
```
ollama run qwen2.5
```

使用ImageTrans翻译日漫

新建项目

基于日译中日漫模板新建一个项目。

使用模板的好处是，相关的配置，例如字体、项目语言、要使用的翻译和OCR等都已经配好了。如果需要的气泡模型没有下载，打开时还会提示进行下载。

软件配置

配置Ollama

在软件的偏好设置中，配置ChatGPT插件，让它可以调用本地的Ollama服务。

需要修改两个地方：
- host：改成http://localhost:11434/v1
- model：改成qwen2.5
配置自定义工作流。

通过菜单->项目->批处理->自定义工作流，打开自定义工作流页面。设置翻译引擎为ChatGPT，然后保存设置。

导入图片并翻译

导入图片后，在图片上右键，点当前图片->一键翻译（自定义工作流），就可以一键翻译图片了。要想翻译整个图片，也可以通过批处理中的自定义工作流进行操作。

演示视频：

本地翻译文字示例

原文	译文
あの子ヒンメル様の仲間なんだって?	听说那孩子是辛美尔大人的同伴？
悲しい顔一つしないなんて、	连一个悲伤的表情都没有，
薄情だね.	真是薄情啊。
おやおや、私達もしていませんよ.	哎呀哎呀，我们也没有啊。
司教はまじめにやれ!	主教认真点干！
この薄情者!	这个薄情的人！
ほっはっは.手痛いですな.	哈哈哈哈。真让人痛心啊。
…だって私、この人の事何も知らないし…	…可是我，对这个人的事一无所知啊…
たった１０年一緒に旅しただけだし…	只是一起旅行了仅仅十年而已…

其中，ヒンメル默认会被翻译成希梅尔。通过在软件中设置术语，可以对这类专有名词的翻译做规范。

竖排日语和中文的识别

Sat, 29 Mar 2025 06:18:50 +0000

日语和中文与其它语言不同，可以纵向竖直排列也可以横向排列。日文的书籍、漫画至今大多是竖排的，而中文现在大多为横排，只在古籍、漫画中还能看到竖排的中文。

竖排和横排混合的日文：

竖排的繁体中文：

下面是识别竖排文字的相关方法。

单字检测

要识别竖排文字，一个直接的方法是检测每个文字的位置，识别每个文字，然后合并成文字行或者段落。

有很多OCR能返回单字坐标，例如RapidOCR。

识别结果：

文字行检测

目前流行的基于深度学习的OCR，大多只能检测文字行。需要专门训练，让OCR具备区分横行和竖行的能力。

目前开源的OCR中，manga-image-translator的效果表现最好。

识别结果：

如果OCR只能识别横行，我们可以先对图像做一个处理，将竖排的图像转换成横排的。

识别整个图像

基于Transformer的OCR，可以直接输入图像，得到文字结果。

ChatGPT等大模型和manga-OCR具备竖排文字识别能力。但它们通常需要配合其它文字检测方法使用。

以上功能均已集成进ImageTrans，可以购买后使用。

视频硬字幕提取

Sat, 08 Mar 2025 11:09:50 +0000

硬字幕是直接融入视频画面的字幕。这种字幕无法直接提取，如果找不到原始字幕文件，我们又希望提取字幕文本和对应的时间轴信息，就需要使用光学字符识别技术（OCR）进行操作。

下面是一个简单的硬字幕的提取过程：直接识别每一帧中的字幕，之后根据文字的位置和内容，确定哪些帧属于同一条字幕以计算出时间轴。

不过实际操作的话，因为OCR是比较耗时的操作，1秒25帧的视频，1分钟的视频就需要处理1500张图，可能需要花费几十分钟。另外还存在识别准确率的问题，会影响结果。所以我们需要对这个操作进行一定的性能优化。

一个方法是使用耗时较少的图像处理方法，确定哪些帧包含字幕，之后再用耗时较长的精准的OCR去识别文字。目前已经有VideoSubFinder、esrXP等工具。但这类软件使用的是传统图像处理方法，准确率不够高。这种情况我们可以直接使用OCR软件的文字定位方法去确定哪些帧包含字幕。

OCR一般分为两个步骤，首先是定位文字区域，然后是识别文字。使用OCR的文字定位方法，准确度更高，然后不识别文字，也可以节省时间。

ImageTrans提供的硬字幕提取工具，提供了对上述流程的支持。下面我们会以美剧版《甄嬛传》为例子介绍软件的用法。美剧版《甄嬛传》提供了双语字幕，我们可以基于这个双语字幕，制作平行语料库，用于语言学习与研究。

字幕分析

首先，我们看下美剧版《甄嬛传》中的字幕是什么样的。下面是几张截图：

可以看到字幕会有两行、三行等多种情况，译文可能分散在多条相同原文的字幕中。

提取视频帧

我们打开Silhouette软件，使用它的帧提取器，提取视频帧：

这里我们可以设置FPS。FPS设置为3时，每秒就只提取3帧。如果希望提取的时间轴准确点，可以把FPS设大点，但处理所需的时间也会更多。如果我们只是需要文本，不需要时间很准确，FPS可以设小点。

识别视频帧中的字幕

接下来，我们打开ImageTrans，导入刚才导出的视频帧。

通过菜单栏-工具，打开硬字幕提取器。

设置需要识别的边界，选择检测引擎为”detect only (PaddleOCR)”，设置线程数为4，点击“检测所有图片中的字幕”开始检测。这里，我们处理的54秒的视频，提取FPS设为3，有164张图像需要进行检测。

操作完成后，我们可以看到图片中的字幕行被检测出来了。

之后，我们点击“OCR所有关键帧”，会识别所有字幕图像中的文字。因为我们这里只识别关键帧，需要处理的图片数变成了21。

可以看到多了一个文本框，包含识别的文本。

之后，我们就可以导出字幕为SRT文件了。

因为这是双语字幕，还有一些额外操作。首先，“OCR所有关键帧”前，要取消勾选“自动去除换行”。之后在硬字幕提取器中，点击“只保留最后一个换行符”。这样我们可以让文本变成一行原文、一行译文的形式。

然后再勾选合并双语字幕同一条字幕对应的多条译文，会把分散的译文都合并到一起。

下面是提取出来的字幕：

1
00:00:00,999 --> 00:00:02,664
- Shichu. - Huan.
实初哥哥 嬛妹妹

2
00:00:03,663 --> 00:00:04,995
I just checked up on your family.
刚刚我去府上请脉

3
00:00:05,328 --> 00:00:07,659
Your mother told me you'd come here to offer incense.
听甄伯母说你来这里进香了

4
00:00:07,992 --> 00:00:09,657
Simply for a stroll and-to-pass an idle hour.
出来走走 也是散心

5
00:00:11,322 --> 00:00:13,320
Huan, don't try to hide it from me.
嬛妹妹 你就不要再瞒我了

6
00:00:14,319 --> 00:00:17,982
I know you' ve been worried about the audition for many days.
我知道为了殿选之事 你已经烦恼多日了

7
00:00:19,647 --> 00:00:22,644
U may only do what I'm allowed. The rest I leave to fate.
嬛儿是尽人事以听天命

8
00:00:23,643 --> 00:00:26,640
Huan, when my father lived, he often said,
嬛妹妹 家父在世的时候常说

9
00:00:26,973 --> 00:00:28,971
"A jade vessel is the symbol of a pure heart.
一片冰心在玉壶

10
00:00:29,304 --> 00:00:32,301
He wanted me to give this to my future-
他让我把此壶 交予我们温家未来的

11
00:00:33,300 --> 00:00:34,965
It is my own wish as well.
其实这也是我一直以来的心意

12
00:00:35,298 --> 00:00:38,295
If you accept this, you won't be called to the audition.
你若接受的话 就不用再去宫中殿选了

13
00:00:40,626 --> 00:00:43,290
In the time of the Shunzhi Emperor, it was decreed
顺治爷在世的时候就定下定例

14
00:00:43,623 --> 00:00:46,953
that girls qualified to join the harem may not marry before the audition.
所有未经选看的秀女 断不可私下结亲

15
00:00:47,619 --> 00:00:51,948
Though you intend to help, you need not give me such a valuable item.
实初哥哥想一时救急 也不必拿出这么贵重的东西来

16
00:00:52,614 --> 00:00:53,946
I'm profoundly flattered.
嬛儿受不起

使用ImageTrans提取硬字幕的优点是，整个过程我们都可以进行干预和修改，可以根据不同的语言选择不同的OCR引擎。

字幕提取后，也可以导入计算机辅助音视频翻译软件Silhouette，结合波形图进行调整。

视频教程：

传统图像处理方法（VideoSubFinder + ImageTrans）：https://www.bilibili.com/video/BV1tGR5YYEJB/
OCR做检测的方法（Silhouette + ImageTrans）：https://www.bilibili.com/video/BV1tGR5YYEQk/

如何转录和翻译日语视频

Sun, 23 Feb 2025 04:19:50 +0000

有时我们可能需要转录和翻译一些日语视频。桌面软件Silhouette让这个操作变得很简单。

处理可以完全在自己的计算机上离线完成。

使用ASR模型（如Whisper ）识别语音。
借助波形和各种控件在程序中调整识别结果。
使用ChatGPT或DeepSeek等大语言人工智能模型翻译所有行。

根据我的测试，在M4 Mac Mini设备上翻译180分钟的日语视频只需20分钟。

如何将音频和已有文本对齐

Sun, 23 Feb 2025 02:01:50 +0000

假设我们有一个音频或视频文件和对应的文本，我们想将文稿和语音进行对齐（音文对齐、字幕对齐）。我们可以手动创建时间轴并复制文本，不过更方便的方法是使用计算机辅助我们完成这个任务：

首先，识别语音以生成时间轴和对应的文本。
然后，对识别的文本和已有的文本进行对齐。
最后，根据文本长度确定时间轴和对齐的文本的关系。

计算机辅助音视频翻译工具Silhouette就是为此目的而设计的。

识别的结果：

对齐器：

对齐的结果：

注：如果识别的语音是准确的，我们不必这样做。这适用于音频质量不佳，导致识别结果不佳的情况。

跨境电商图片翻译

Mon, 18 Nov 2024 12:01:50 +0000

ImageTrans是一款计算机辅助图片翻译软件，我们可以用它翻译跨境电商用的图片。

跨境电商的图片种类丰富，有用于搜索结果的主图、有详情页图片，给翻译提出了不少挑战：

会存在需要翻译、不需要翻译以及需要去除的文字。
文字可能存在花纹、渐变等复杂背景上，需要较好地去除文字，还原背景。
翻译过来的英文文字会比中文文字更长，占用更大的面积。
对文字对齐的要求较高。

ImageTrans提供以下功能，能较好地处理跨境电商图片的翻译。

使用OCR技术，自动生成文本框，并能去除文字，免去手动框选和抹除文字的操作。此外也支持手动对文本框进行增删改。

原图：

文字掩膜：

去文字图：
支持预先用机器翻译进行翻译，并能调用多个机器翻译（阿里电商、ChatGPT、DeepL、百度等），为翻译提供参考。虽然电商翻译是一种创造性翻译，但机器翻译还是能提供一定的帮助。
支持多选文字后对文字样式统一进行设置。
支持选中多个区域后进行位置的对齐，并支持和原文区域进行对齐。
移动区域时，支持显示对齐线。
支持将结果导出为Photoshop图片，或者直接处理已有PSD文件，用于处理需要复杂修改的图片。
内建搜索与替换，可以用于统一文字大小写等操作。

以下是一些翻译示例，字体使用Lato。这一字体拥有多种字重，间距较小，可以满足复杂的图片中译英需求。为了保证文字清楚，字体大小均在15像素以上。

示例1：

示例2：

示例3：

示例4：

点此查看更多图片翻译例子

如何编写一个ImageTrans的插件

Sun, 15 Sep 2024 03:23:50 +0000

ImageTrans使用ABPlugin这个库提供插件功能。我们可以编写文字识别、机器翻译、自定义操作、掩膜生成和文字去除等五种插件。

这里我们演示一下如何编写一个谷歌机器翻译插件。

环境准备

下载B4J 8.9：B4J.zip。
下载额外的类库：b4jlib.zip。
下载OpenJDK + OpenJFX：jdk-14.0.1.zip

在软件中配置类库地址和JDK的地址。

新建项目

新建一个UI项目。

在Build Configuration中将包改为和ImageTrans一样的org.xulihang.imagetrans。

然后新建一个googleMTPlugin.bas的类，包含以下模板内容：

Sub Class_Globals
	Private fx As JFX
End Sub

'Initializes the object. You can NOT add parameters to this method!
Public Sub Initialize() As String
	Log("Initializing plugin " & GetNiceName)
	' Here return a key to prevent running unauthorized plugins
	Return "MyKey"
End Sub

' must be available
public Sub GetNiceName() As String
	Return "googleMT"
End Sub

' must be available
public Sub Run(Tag As String, Params As Map) As ResumableSub
	Select Tag
		Case "getParams"
			Dim paramsList As List
			paramsList.Initialize
			paramsList.Add("key")
			Return paramsList
		Case "translate"
			Return ""
		Case "batchtranslate"
			Return Array()
		Case "supportBatchTranslation"
			Return True
	End Select
	Return ""
End Sub

插件名可以通过GetNiceName获取。

插件的类别是根据名字的后缀区分的，目前有这几种后缀：

机器翻译：MT
文字识别：OCR
图像修复（文字去除）：Inpaint
文字掩膜生成：MaskGen
自定义操作：Action

实现插件

ImageTrans会传递需要执行的操作名和对应的参数给插件。插件根据指定的tag执行对应的操作。

下面是常见操作的说明：

getParams：获取需要进行配置的参数。
getDefaultParamValues：获取默认的配置
getSetupParams：获取安装配置
getIsInstalledOrRunning：检查插件是否安装或运行
translate：翻译单个句子
batchtranslate：翻译多个句子
supportBatchTranslation：是否支持多句翻译
getText：识别单个区域的文字
getTextWithLocation：识别整张图片的文字，并返回坐标信息
inpaint：生成去文字图
genMask：生成文字掩膜
byTextArea：需要按文字区域处理
process：处理文字编辑控件中的文字

这里，我们需要实现用谷歌去翻译的接口。

Select Tag
	Case "translate"
		wait for (translate(Params.Get("source"),Params.Get("sourceLang"),Params.Get("targetLang"),Params.Get("preferencesMap"))) complete (result As String)
		Return result
	Case "batchtranslate"
		wait for (batchTranslate(Params.Get("source"),Params.Get("sourceLang"),Params.Get("targetLang"),Params.Get("preferencesMap"))) complete (targetList As List)
		Return targetList
End Select

首先实现单句翻译，一个简单的HTTP请求：

Sub translate(source As String,sourceLang As String,targetLang As String,preferencesMap As Map) As ResumableSub
	Dim target As String
	Dim su As StringUtils
	Dim job As HttpJob
	job.Initialize("job",Me)
	Dim params As String
	Dim key As String
	key=getMap("google",getMap("api",preferencesMap)).GetDefault("key","")
	If key="" Then
		Return ""
	End If
	params="key="&key& _
	"&q="&su.EncodeUrl(source,"UTF-8")&"&format=text&source="&sourceLang&"&target="&targetLang
	job.PostString("https://translation.googleapis.com/language/translate/v2",params)
	wait For (job) JobDone(job As HttpJob)
	If job.Success Then
		Try
			Dim result,data As Map
			Dim json As JSONParser
			json.Initialize(job.GetString)
			result=json.NextObject
			data=result.Get("data")
			Dim translations As List
			translations=data.Get("translations")
			Dim map1 As Map
			map1=translations.Get(0)
			target=map1.Get("translatedText")
		Catch
			target=""
			Log(LastException)
		End Try
	Else
		target=""
	End If
	job.Release
	Return target
End Sub


Sub getMap(key As String,parentmap As Map) As Map
	Return parentmap.Get(key)
End Sub

然后处理多句翻译。谷歌默认不支持多句翻译，我们可以将多个句子以分割符号隔开，一次性传给谷歌翻译后再做切分。

Sub batchTranslate(sourceList As List,sourceLang As String,targetLang As String,preferencesMap As Map) As ResumableSub
	Dim targetList As List
	targetList.Initialize
	Dim sb As StringBuilder
	sb.Initialize
	For Each source As String In sourceList
		sb.Append(source.Replace(CRLF,"<br/>"))
		sb.Append(CRLF)
	Next
	wait for (translate(sb.ToString,sourceLang,targetLang,preferencesMap)) Complete (target As String)
	Dim targetList As List
	targetList.Initialize
	For Each result As String In Regex.Split(CRLF,target)
		result = result.Replace("<br/>",CRLF)
		targetList.Add(result)
	Next
	Return targetList
End Sub

测试

在main中，运行以下代码进行测试：

Dim map1 As Map
map1.Initialize
map1.Put("api",CreateMap("google":CreateMap("key":"api key")))
Dim n As googleMTPlugin
n.Initialize
wait for (n.translate("BasicCAT Documentation","en","zh",map1)) complete (result As String)
Log(result)
wait for (n.batchTranslate(Array("Sentence 1","Sentence 2"),"en","zh",map1)) complete (targetList As List)
Log(targetList)

打包

编写完成后，我们需要进行打包。

执行以下compile to library的操作，保存文件到ImageTrans的plugins目录即可。

如何本地化B4J桌面程序

Wed, 21 Aug 2024 13:11:50 +0000

ImageTrans是使用B4J编写的桌面程序，支持多种界面语言。

在其背后使用了Localizator这一本地化库。

它需要将键、语言以下面这样的Excel表格进行存储。

key	zh	en
Hello {1}	你好 {1}	Hello {1}

之后在代码中调用，根据键找到对应的语言的版本：

lblHello.Text = loc.LocalizeParams("Hello {1}!", Array(edtName.Text))

要新增一个语言也很容易，直接新建一列，用ISO-639-1标准的语言代码作为表头。比如下面的表格，新增了法语一列。

key	zh	en	fr
Hello {1}	你好 {1}	Hello {1}	Bonjour {1}

ImageTrans集成了本地化功能，可以导出上述表格，并从上述这样的表格导回翻译。详见这一issue：issue544

使用BasicCAT本地化ImageTrans

下面讲解下如何用BasicCAT翻译导出的xlsx文件用于本地化ImageTrans。

隐藏不需要翻译的列。

假设我们目前有下面这样的一张表，法语是待翻译的列：

key	zh	en	fr
Hello {1}	你好 {1}	Hello {1}	Hello {1}

我们需要将其它列隐藏：

fr
Hello {1}

之后再导入BasicCAT，BasicCAT就只会处理需要翻译的列。

使用BasicCAT翻译并生成翻译好的xlsx导回ImageTrans软件即可。我们可以使用BasicCAT的预翻译功能自动调用机器翻译进行翻译。
处理新增的待翻译文本。

软件每次版本更新，都有可能增加新的需要翻译的文本。

我们可以按照步骤一准备好xlsx文件，之后利用BasicCAT的重新导入功能，基于新的文件和已有的翻译重新生成项目文件。

之后使用搜索与替换，查找译文为空的片段，点左下方的”Filter Segments”，在编辑器中只显示这些片段，方便我们翻译新的文本。

可以翻译的漫画阅读器

Sun, 28 Jul 2024 12:04:50 +0000

ImageTrans是一款计算机辅助图片翻译软件。它具有较好的图片浏览功能，并且能识别图片中的文字并进行翻译，我们可以使用它来阅读外国漫画。

阅读相关的功能：

支持鼠标拖拽移动
支持快捷键缩放
支持各种常见的文件格式：JPG、PNG、BMP、WebP、PDF、ZIP、CBZ、EPUB、MOBI
支持检测分镜，并以分镜为单位进行阅读或者转换漫画为条漫
支持使用TTS进行语音朗读
支持导出结果为网页，供手机阅读

翻译相关的功能：

支持世界上大多数语言
支持调用多种机器翻译和大语言模型
支持利用术语词典、字符替换等方法改善翻译

如何转换传统漫画为条漫

Sun, 28 Jul 2024 10:57:50 +0000

传统的漫画通常是以适合打印在A5或者A4纸的格式绘制的，简称格漫。随着手机等电子阅读设备的普及，出现了条漫这种形式。它的特点是将漫画分镜以适合手机阅读的尺寸，排列在一张张较长的图片上，读者只需不停往下滑动就能一直阅读下去。

将已有的传统漫画转换为条漫，通常需要重新排列分镜、绘制气泡。具体可以参考漫画师Jason Brubaker的这个视频。

那我们作为读者，如果想转换传统漫画到条漫，方便在手机上阅读，又不想那么费力的话，可以使用ImageTrans进行自动转换。这个软件可以检测分镜，并将分镜以条漫的形式导出到一张图片里。我们可以在软件里编辑分镜、调整分镜的顺序，确保结果正确后再导出。

原图：

图片来自《铁姬钢兵》。

导出后的图：

BasicCAT — Computer-Aided Translation (CAT) Tools

本地漫画翻译软件

用到的软件

启动本地服务

使用ImageTrans翻译日漫

新建项目

软件配置

导入图片并翻译

本地翻译文字示例

竖排日语和中文的识别

单字检测

文字行检测

识别整个图像

视频硬字幕提取

字幕分析

提取视频帧

识别视频帧中的字幕

如何转录和翻译日语视频

如何将音频和已有文本对齐

延伸阅读

跨境电商图片翻译

如何编写一个ImageTrans的插件

环境准备

新建项目

实现插件

测试

打包

更多插件示例

如何本地化B4J桌面程序

使用BasicCAT本地化ImageTrans

可以翻译的漫画阅读器

如何转换传统漫画为条漫