OCR技术简介

OCR技术简介

光学字符识别(Optical Character Recognition, OCR):是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。可以直接用于业务系统或桌面复制编辑操作。

OCR应用场景

根据识别场景,可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR。比如证件识别和车牌识别就是专用OCR的典型实例;但是还有一类专用OCR场景或许没有引起各国内厂家的注意,那就是专用业务场景OCR,比如,银行托管业务中的划款指令识别,基金公司的交易确认单识别。

通用OCR可以用于更复杂的场景,也具有更大的应用潜力。但由于通用图片的场景不固定,文字布局多样,因此难度更高。根据所识别图片的内容,可将场景分为清晰且具有固定模式的简单场景和更为复杂的自然场景。自然场景文本识别的难度极高,原因包括:图片背景极为丰富,经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题,而且文本的布局可能存在扭曲、褶皱、换向等问题,其中的文字也可能字体多样、字号字重颜色不一的问题。因此自然场景中的文字识别技术,也经常被单列为场景文字识别技术(Scene Text Recognition, STR),目前国内各大互联网公司也都提供相应的云识别服务。

OCR技术路线

典型的OCR的技术路线如下所示

其中影响识别准确率的技术瓶颈是文字检测和文本识别,而这两部分也是OCR技术的核心。

在传统OCR技术中,图像预处理通常是针对图像的成像问题进行修正。常见的预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。

文字检测即检测文本的所在位置和范围及其布局。通常也包括版面分析和文字行检测等。文字检测主要解决的问题是哪里有文字,文字的范围是多少。

文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文字识别主要解决的问题是每个文字是什么。识别出的文本通常需要再次核对以保证其正确性。文本校正也被认为属于这一环节。而其中当识别的内容是由词库中的词汇组成时,一般称作有词典识别(Lexicon-based),反之称作无词典识别(Lexicon-free)。

迈弦驱动

评论已关闭。