正文

ocr识别原理及算法（ocr识别过程）

发布时间：2023-03-31 19:18:56 稿源：创意岭阅读： 133 当前文章关键词排名出租

大家好！今天让创意岭的小编来大家介绍下关于ocr识别原理及算法的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，如需了解SEO相关业务请拨打电话175-8598-2043，或添加微信：1454722008

本文目录:

1、发票ocr识别技术原理是什么？
2、OCR技术浅析
3、RCNN + CTC 文本识别原理
4、OCR图像文字识别图像分割算法

ocr识别原理及算法（ocr识别过程）

一、发票ocr识别技术原理是什么？

比如云脉OCR票据识别技术，基于成熟的光学字符识别（OCR）技术，通过创建票据的模板将票据图片分解成多个不同类型的元素，然后逐个对元素进行识别，最后分别将数据提取出来；厦门云脉还支持ocr票据识别sdk个性化定制，可根据用户实际应用场景进行定制.....

二、OCR技术浅析

姓名:吴兆阳学号:14020199009

转自机器人学习研究会

嵌牛导读:OCR（Optical Character Recognition，光学字符识别）的概念早于1920年代便被提出，一直是模式识别领域中重要的研究方向。近年来，随着移动设备的快速更新迭代，以及移动互联网的快速发展，使得OCR有更为广泛的应用场景，从以往的扫描文件的字符识别，到现在应用到自然场景中图片文字的识别，如识别身份证、银行卡、门牌、票据及各类网络图片中的文字。

嵌牛鼻子:ORC技术

嵌牛提问:什么是ORC，如何使用？

嵌牛正文:

以深度学习兴起的时间为分割点，直至近五年之前，业界最为广泛使用的仍然是传统的OCR识别技术框架，而随着深度学习的崛起，基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈（如文字定位、二值化和文字分割等），并已在工业界得到广泛应用。

笔者针对业务中的身份证照片文字识别需求分别尝试了传统OCR识别框架及基于深度学习的OCR识别框架。下面就以身份证文字识别为例分别简要介绍两种识别框架。

传统OCR技术框架

如上图所示，传统OCR技术框架主要分为五个步骤：

首先文本定位，接着进行倾斜文本矫正，之后分割出单字后，并对单字识别，最后基于统计模型（如隐马尔科夫链，HMM）进行语义纠错。可按处理方式划分为三个阶段：预处理阶段、识别阶段和后处理阶段。其中关键在于预处理阶段，预处理阶段的质量直接决定了最终的识别效果，因此这里详细介绍下预处理阶段。

预处理阶段中包含了三步：

定位图片中的文字区域，而文字检测主要基于连通域分析的方法，主要思想是利用文字颜色、亮度、边缘信息进行聚类的方式来快速分离文字区域与非文字区域，较为流行的两个算法分别是：最大极值稳定区域(MSER)算法及笔画宽度变换(SWT)算法，而在自然场景中因受到光照强度、图片拍摄质量和类文字背景的干扰，使得检测结果中包含非常多的非文字区域，而目前从候选区域区分出真正文字区域主要两种方法，用规则判断或轻量级的神经网络模型进行区分；

文本区域图像矫正，主要基于旋转变换和仿射变换；

行列分割提取出单字，这一步利用文字在行列间存在间隙的特征，通过二值化并在投影后找出行列分割点，当在文字与背景的区分度较好时，效果很好，而拍摄的图片中光照、摄像质量的影响，并且文字背景难以区分时，常造成错误分割的情况。

下面介绍基于传统OCR框架处理身份证文字识别：

身份证识别技术流程与上述框架稍微有所差异。对该问题，已知先验信息：a.证件长宽固定；b.字体及大小一致；c.文本相对于证件位置固定；d.存在固定文字。因此，处理该问题的思路为：先定位目标物体（证件），矫正后提取文字进行识别，最后进行语义纠错，如下图：

目标物体定位并矫正。基于现有的先验信息，定位最后的方法为采用模板关键点特征匹配的方法，并利用模板上特征点及目标图像特征点坐标之间的关系进行透视变换，以定位目标物体，如下图所示。接着，基于四角的坐标，进行旋转、仿射、尺寸的变换，并提取出目标物体的俯视图。

因文字位置相对固定，接着便分割出文字区域，二值化后，行列分割出单个字符。这里的技术难点在于二值化，二值化效果的好坏直接影响字符分割，并最终影响识别结果。受光照和拍摄质量的影响，全局二值化难以设置统一的阈值，而自适应二值化算法易受到阴影及模糊边界的干扰。所以在这边尝试过许多方法，测试下来未发现在任何情形下效果都满足要求的方法。

分割出单字后接着用分类器进行识别，并在这步基于统计上的先验信息定义了一个简单的优化函数，可看做1-gram语言模型。先验信息为：2400（总共660273）汉字的使用频率之和为99%以上。定义的优化函数为：

式中，Pi为该字出现的概率，confi为置信度值。

下图给出了示例：

因上述的优化过程中假定各状态相互独立并与上一状态没有联系，故不可避免存在语义上的错误。而如何基于现有的输出序列，对序列进行语义上的修正，那么最直观的想法就是用隐马尔可夫模型（Hidden Markov Model，HMM）解决这个问题，其基于观察序列，求出最优隐序列。其可以抽象为如下图的过程。在给定O序列情况下，通过维特比算法，找出最优序列S：

传统OCR冗长的处理流程以及大量人工规则的存在，使得每步的错误不断累积，而使得最终识别结果难以满足实际需求。接下来讨论基于深度学习的OCR。

基于深度学习的OCR识别框架

目前，从技术流程上来说，主要分为两步，首先是检测出图像中的文本行，接着进行序列识别。可见，基于深度学习的OCR识别框架相比于传统OCR识别框架，减少了三个步骤，降低了因误差累积对最终识别结果的影响。

文本行检测，其又可分为水平行文字检测算法与倾斜文字行检测算法。这里主要介绍下Tian提出算法CTPN，其算法框架如下图。主要思路是将文本行识别看做一个序列识别问题，不同于一般的目标检测问题，引入RNN来利用上下文的信息。

具体流程为：

用VGG16的5个卷积层得到特征图（feature map，W*H*C）；

在Conv5的feature map的每个位置上取3*3*C的窗口的特征，这些特征将用于预测该位置k个anchor（anchor的定义和Faster RCNN类似）对应的类别信息，位置信息；

将每一行的所有窗口对应的3*3*C的特征（W*3*3*C）输入到RNN（BLSTM）中，得到W*256的输出；

将RNN的W*256输入到512维的fc层；

fc层特征输入到三个分类或者回归层中。第二个2k scores 表示的是k个anchor的类别信息（是字符或不是字符）。第一个2k vertical coordinate和第三个k side-refinement是用来回归k个anchor的位置信息。2k vertical coordinate表示的是bounding box的高度和中心的y轴坐标（可以决定上下边界），k个side-refinement表示的bounding box的水平平移量。这边注意，只用了3个参数表示回归的bounding box，因为这里默认了每个anchor的width是16，且不再变化（VGG16的conv5的stride是16）。回归出来的box如Fig.1中那些红色的细长矩形，它们的宽度是一定的；

用简单的文本线构造算法，把分类得到的文字的proposal（图Fig.1（b）中的细长的矩形）合并成文本线。

上图为给出基于CTPN的例子，框线部分是算法识别出的文字行，可见在图片光照不均、人工合成及文字背景对比不明显的情形下均有很好的效果。相比于传统文字定位方法，具有更好的鲁棒性及明显的优势。

文字行识别。近两年比较受关注的主要有两种，一种是CNN+RNN+CTC的方法，另外一种是用attention model+CNN+RNN的方法。这里主要介绍下CNN+RNN+CTC，算法框架由图给出。分为三层，CNN层、RNN层及解码（transcription）层。在CNN层，用于提取图像特征，利用Map-to-Sequence表示成特征向量；在RNN层，用双向LSTM识别特征向量，得到每列特征的概率分布；在解码层，利用CTC和前向后向算法求解最优的label序列。因此，该方法能够识别不定长的文字行。

两个例子：

Out：辽宁省长海县广鹿乡沙尖

Out：河南省邓州市九龙乡姚营

三、RCNN + CTC 文本识别原理

对于 OCR 任务来说，目的是为了将图像中的文字识别出来，近几年的研究主要包含以下几个步骤：

目前研究主要集中在文字检测和文字识别两个任务，本文只介绍文字识别任务中的一种模型，即 CRNN+CTC Loss 方案；另外一种方案是基于 Attention 机制。主要区别在于（后续重点介绍 CTC）：

CRNN 网络结构如图 2-1 所示，输入为经过文字检测的文本框（小图），输出为具体的文字内容 “state”，从下往上的结构依次为：卷积层、循环层和翻译层。

卷积层：使用深度 CNN 进行图像的局部特征提取。如图 2-2 所示，整个 CRNN 网络的层级以及参数设置。

注意： 卷积核的大小是 3x3，步长 s 和 padding 都为 1，则证明卷积层在不改变图像的尺寸大小情况下进行特征提取；池化层有四个，大小分别为 2x2、2x2、1x2、1x2，则对于图像的高度减半 16 倍，宽度减半 4 倍。然后再经过最后的 Conv 层，例如：图像的输入尺寸为 (channel, height, width) = (1, 32, 160)，CNN 的输出尺寸为 (512，1，40)。

经过 CNN 层的特征图（512，1，40）是不能直接送给 LSTM 进行训练的，通过对特征图中的 40 作为特征向量的序列数，每列包含 512 维特征，构成了 40x512 大小的维度矩阵，输入到 LSTM 网络中。论文 [5] 中提到：

使用双向的 LSTM 进行时序特征的提取，通过上一步，输入到 LSTM 的特征大小为（40x512），每个 LSTM 的时间步为 40，每个时间点的特征维度为 512。LSTM 网络的目标：预测每个时间步的字符内容，即输出为所有字符的 softmax 概率分布，然后将这个后验概率矩阵传入 CTC 层。

总结为：

对于 LSTM，正常使用多分类的交叉熵进行训练，完成参数更新，则每一时间步的输出对应一个字符，也就意味着训练时候每张样本图片都需要标记出每个字符在图片中的位置。但是实际上是不可能实现的，所以 CTC 提出一种对不需要对齐的 Loss 计算方法，用于训练网络，被广泛应用于文本行识别和语音识别中。

对于输入 X 和输出标签 Y 长度都不一致且变换的情况，CTC 提供解决方案为：对于一个给定的输入序列 X ，CTC 给出所有可能的输出分布 Y。根据这个分布，我们可以输出最可能的结果或者给出某个输出的概率。

RNN 进行时序分类时，不可避免出现冗余信息，如图 3-1 所示，5 个时间步分别被识别为 [a,a,a,b,b]，然后将重复的字符合并为 “ab”，但是对于如 book 等字符，合并字符后变成了 bok ，显然不行，所以 CTC 使用 blank 机制解决这个问题。

定义一条路径的输出概率为：

其中，代表时间步为 t 时刻的输出概率，使用连乘的方式得出整条路径的概率值。但是存在多条路径经过上一步的合并冗余机制得到相同的路径结果，如（“a-a-a-b-b”和“aa-aa-a-b-b-”通过合并序列之后都为“aaabb”），所以定义：

其中，代表合并之后的路径，由所有合并之后的相同路径求和所得。常规解法是将所有的合法路径输出概率，然后进行求和，但是实际上路径组合数量非常大，无法逐条求和直接计算。

借用概率图 HMM 的 “向前-向后” 算法计算：

训练的目的在于最大化概率，使用对数似然法定义损失函数为：

递推公式为：

对于递推公式的解释说明，可以看到 X 轴代表时间步，z 轴代表输出的字符串，输出标签为“ZOO”：

上图主要分为以下两种情况：