大模型可以准确地理解和处理文本,甚至一些多模态视觉大模型可以直接图像。下面是一些使用它取得好的OCR结果的方法。

直接OCR

直接使用大模型,比如qwen-vl,处理图片,提取图片中的文字,结果非常精确。

但现在大模型无法准确返回文字坐标,通常需要先用专门的文字定位方法去定位文字,再用大模型去识别文字。

纠正识别结果

用大模型直接校对OCR结果。这一方法比直接处理图片,对性能的要求更低,但需要模型参数足够大,小参数的比如7B的大模型校对效果较差。

版面分析

大模型还支持做版面分析,可以用于确定图片中的文字属于哪个段落,正确地按顺序输出文字。