使用大模型取得好的OCR结果

大模型可以准确地理解和处理文本，甚至一些多模态视觉大模型可以直接图像。下面是一些使用它取得好的OCR结果的方法。

直接OCR

直接使用大模型，比如qwen-vl，处理图片，提取图片中的文字，结果非常精确。

但现在大模型无法准确返回文字坐标，通常需要先用专门的文字定位方法去定位文字，再用大模型去识别文字。

用大模型直接校对OCR结果。这一方法比直接处理图片，对性能的要求更低，但需要模型参数足够大，小参数的比如7B的大模型校对效果较差。

大模型还支持做版面分析，可以用于确定图片中的文字属于哪个段落，正确地按顺序输出文字。