首页 / 博客 / 图片翻译 / 音视频翻译 / 支持 / 捐助 / 订阅
使用大模型取得好的OCR结果
大模型可以准确地理解和处理文本,甚至一些多模态视觉大模型可以直接图像。下面是一些使用它取得好的OCR结果的方法。
直接OCR
直接使用大模型,比如qwen-vl,处理图片,提取图片中的文字,结果非常精确。
但现在大模型无法准确返回文字坐标,通常需要先用专门的文字定位方法去定位文字,再用大模型去识别文字。
纠正识别结果
用大模型直接校对OCR结果。这一方法比直接处理图片,对性能的要求更低,但需要模型参数足够大,小参数的比如7B的大模型校对效果较差。
版面分析
大模型还支持做版面分析,可以用于确定图片中的文字属于哪个段落,正确地按顺序输出文字。
© 2025 BasicCAT ― Powered by Jekyll and Textlog theme