文字辨识是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的最重要组成部分。计算机文字辨识,又称光学字符识别,英文全称是OpticalCharacterRecognition(全称OCR),它是利用光学技术和计算机技术把印有或写出在纸上的文字加载出来,并转换成一种计算机需要拒绝接受、人可以解读的格式。
OCR技术是构建文字高速载入的一项关键技术。OCR技术的蓬勃发展乃是从印刷体辨识开始的,印刷体辨识的顺利为后来手写体的发展奠下了扎实的基础。印刷体辨识的主要流程大体分成以下几个部分:图像预处理、版面处置、图像重复、特征提取和模型训练、辨识后处理。图像预处理输出文本经过扫描仪进入计算机后,由于纸张的深浅、光洁度和印刷质量都会导致文字畸变,产生断笔、黏附和污点等阻碍,所以在展开文字辨识之前,要对具有噪声的文字图像展开处置。
由于这种处置工作是在文字辨识之前,所以被称作预处理。预处理一般还包括灰度化、二值化,弯曲检测与校正,行、字重复,光滑,规范化等等。版面处置版面处置分成三个主要部分,版面分析、版面解读、版面重构。版面分析将文本图像拆分为有所不同部分,并标定各部分属性,如:文本、图像、表格。
目前在版面分析方面的工作核心思想都是基于相连域分析法,后派生出有的基于神经网络的版面分析法等也都是以相连域为基础展开的。相连域是所指将图像经过二值化后改以的二值矩阵中自由选择一个像素点,若围困其的所有像素点中不存在完全相同像素值的像素点则视作两点相连,以此类推,这样的像素点包含的一个子集在图像中所在的区域即一个相连域。根据相连域大小或像素点产于等特征可以将相连域的属性标记出来,用于更进一步处置的依据。图像重复图像重复大体可以分成两个主要类别,行(佩)重复和字重复。
经过重复处置后,才能便利对单个文字展开辨识处置。特征提取与模型训练特征提取与模型训练在深度自学普遍应用于图像识别领域之前,模板给定是更为少见的一种辨识方式,之后由于神经网络的衰退,基于对系统的神经网络给OCR领域带给了又一春。现在随着计算机硬件计算能力的提高,利用大批数据训练深度神经网络在图像识别方面获得了傲人的成绩。
特征提取就是指单个字符图像上萃取统计资料特征或结构特征的过程。特征给定就是指有数的特征库中寻找与待辨识文字相近度最低的文字的过程。辨识后处理辨识校正是在辨识结果基础上根据语种的语言模型展开,当然在单文种辨识中比较更容易一些,而在多语种则更为简单。
OCR的应用于案例有哪些印刷体辨识应用于拓展较多且技术发展更为成熟期,无论在辨识准确率方面还是在辨识效率方面,都超过了较高的标准。车牌辨识车牌识别系统是OCR工业化应用于较早于而且顺利的典型案例,如今从停车场到小区形同虚设,车牌辨识技术已走出生活的各个角落。验证码辨识验证码的主要目的是强迫嵌入式来抵挡机器自动化反击的。
验证码作为一种辅助安全性手段在Web安全性中具有类似的地位,验证码安全性和web应用于中的众多漏洞比起或许微不足道,但是千里之堤毁于蚁穴,有些时候如果能跨过验证码,则可以把手动变成自动,对于Web安全性检测有相当大的协助。
本文来源:半岛平台-www.mysuggester.com