主页 > 网络技术 > 扫描仪原理及参数简介

扫描仪原理及参数简介

    最近公司在做的某政府OA系统的需求分析由我完成,期间涉及到扫描仪及OCR技术,特介绍如下,以供查阅。


    其实OCR早就不是什么新技术了,早在我读大学时,我自己买的BENQ扫描仪就可以为汉王OCR程序提供扫描支持功能。
扫描仪的原理


    扫描仪是图像信号输入设备。它对原稿进行光学扫描,然后将光学图像传送到光电转换器中变为模拟电信号,又将模拟电信号变换成为数字电信号,最后通过计算机接口送至计算机中。
  扫描仪扫描图像的步骤是:
  1.首先将欲扫描的原稿正面朝下铺在扫描仪的玻璃板上,原稿可以是文字稿件或者图纸照片;
  2.启动扫描仪驱动程序后,安装在扫描仪内部的可移动光源开始扫描原稿。为了均匀照亮稿件,扫描仪光源为长条形,并沿y方向(即扫描仪较长的那条边所在方向)扫过整个原稿;
  3.照射到原稿上的光线经反射后穿过一个很窄的缝隙,形成沿x方向(一般是扫描仪较短边所在的方向)的光带,又经过一组反光镜,由一组光学透镜聚焦并进入分光镜,经过棱镜和红绿蓝三色滤色镜得到的RGB三条彩色光带分别照到各自的CCD上,CCD将RGB光带转变为模拟电子信号,此信号又被A/D变换器转变为数字电子信号。
  至此,反映原稿图像的光信号转变为计算机能够接受的二进制数字电子信号,最后通过串行或者并行等接口送至计算机。扫描仪每扫一行就得到原稿x方向一行的图像信息,随着沿y方向的移动,在计算机内部逐步形成原稿的全图。

技术参数


    CCD:CCD是Charge Couple Device的缩写,称为电荷耦合器件,它是利用微电子技术制成的表面光电器件,可以实现光电转换功能。CCD在摄像机、数码相机和扫描仪中应用广泛,只不过摄像机中使用的是点阵CCD,即包括x、y两个方向用于摄取平面图像,而扫描仪中使用的是线性CCD,它只有x一个方向,y方向扫描由扫描仪的机械装置来完成。CCD芯片上有许多光敏单元,它们可以将不同的光线转换成不同的电荷,从而形成对应原稿光图像的电荷图像。如果我们想增加图像的分辨率,就必须增加CCD上的光敏单元数量。实际上,CCD的性能决定了扫描仪的x方向的光学分辨率。
  景深:通俗地说,景深就是对远近不同物体的表现能力。一般来讲,如果我们扫描的物体不是平面的,那么必然有些部分离扫描仪工作台近一些,另一些要远一些,景深好的扫描仪,可以将远近不同的物体真实还原,其色彩和亮度等都不会有大的改变。一般说来,CCD的景深要比CIS好。
  光学分辨率:光学分辨率是指扫描仪的光学系统可以采集的实际信息量,也就是扫描仪的感光元件–CCD的分辨率。例如最大扫描范围为216mm×297mm(适合于A4纸)的扫描仪可扫描的最大宽度为8.5英寸(216mm),它的CCD含有5100个单元,其光学分辨率为5100点/8.5英寸=600dpi。常见的光学分辨率有300×600、600×1200或者更高。
  最大分辨率:最大分辨率又叫做插值分辨率,它是在相邻像素之间求出颜色或者灰度的平均值从而增加像素数的办法。内插算法增加了像素数,但不能增添真正的图像细节。举个例子,比如我们扫描一朵花,如果增大光学分辨率,则可能将花瓣上的脉络都看得清楚;而如果只是增大插值分辨率,则只是将已经看清楚的部分放大一些而已,无法对细节部分进行更进一步的表现。
  色彩分辨率:色彩分辨率又叫色彩深度、色彩模式、色彩位或色阶,总之都是表示扫描仪分辨彩色或灰度细腻程度的指标,它的单位是bit(位)。色彩位确切的含义是用多少个位来表示扫描得到的一个像素。例如:1bit只能表示黑白像素,因为计算机中的数字使用二进制,1bit只能表示两个值(21=2)即0和1,它们分别代表黑与白。8bit可以表示256个灰度级(28=256),它们代表从黑到白的不同灰度等级。24bit可以表示16777216种色彩(224=16777216),其中红(R)绿(G)蓝(B)各个通道分别占用8bit,它们各有2^8=256个等级,一般称24bit以上的色彩为真彩色,当然还有采用30bit、36bit、42bit的机种。从理论上讲,色彩位数越多,颜色就越逼真,但对于非专业用户来讲,由于受到计算机处理能力和输出打印机分辨率的限制,追求高色彩位给我们带来的只会是浪费。
  TWAIN:TWAIN(Technology Without An Interesting Name)是扫描仪厂商共同遵循的规格,是应用程序与影像捕捉设备间的标准接口。只要是支持TWAIN的驱动程序,就可以启动符合这种规格的扫描仪。例如在 Microsoft Word中就可以启动扫描仪,方法是打开菜单栏的"插入"→"图片"→"来自扫描仪"。利用 Adobe Photoshop也可以做到这一点,方法是打开"File"→"Import"→"Select TWAIN_32 Source"。
  OCR:OCR是字符识别软件的简称,它是英文Optical character recognition的缩写,原意是光学字符识别。它的功能是通过扫描仪等光学输入设备读取印刷品上的文字图像信息,利用模式识别的算法,分析文字的形态特征从而判别不同的汉字。中文OCR 一般只适合于识别印刷体汉字。使用扫描仪加OCR可以部分地代替键盘输入汉字的功能,是省力快捷的文字输入方法。常见的OCR有清华紫光、尚书、蒙恬等等。


    接下来专门对OCR进行介绍:


    OCR(Optical Character Recognition,光学字符识别),是属于图型识别(Pattern Recognition,PR)的一门学问。其目的就是要让计算机知道它到底看到了什么,尤其是文字资料。


    由于OCR是一门与识别率拔河的技术,因此如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR( Intelligent Character Recognition)的名词也因此而产生。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。
在此对OCR作一基本介绍,包括其技术简介以及其应用介绍。


   





   &
nbsp;从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。
    在此逐一介绍:
    影象输入:欲经过OCR处理的标的物须透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机。科技的进步,扫描仪等的输入装置已制作的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。
    影象前处理:影像前处理是OCR系统中,须解决问题最多的一个模块,从得到一个不是黑就是白的二值化影像,或灰阶、彩色的影像,到独立出一个个的文字影像的过程,都属于影像前处理。包含了影像正规化、去除噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处理。在影像处理方面,在学理及技术方面都已达成熟阶段,因此在市面上或网站上有不少可用的链接库;在文件前处理方面,则凭各家本领了;影像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文章的题纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件一样的判断出来。
    文字特征抽取:单以识别率而言,特征抽取可说是OCR的核心,用什么特征、怎么抽取,直接影响识别的好坏,也所以在OCR研究初期,特征抽取的研究报告特别的多。而特征可说是识别的筹码,简易的区分可分为两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。
    对比数据库:当输入文字算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。
    对比识别:这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统(Experts System)被提出,利用各种特征比对方法的相异互补性,使识别出的结果,其信心度特别的高。
    字词后处理:由于OCR的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。
    字词数据库:为字词后处理所建立的词库。
    人工校正:OCR最后的关卡,在此之前,使用者可能只是拿支鼠标,跟着软件设计的节奏操作或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是OCR出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,人工校正的操作流程及其功能,亦影响OCR的处理效率,因此,文字影像与识别文字的对照,及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词,都是为使用者设计尽量少使用键盘的一种功能,当然,不是说系统没显示出的文字就一定正确,就像完全由键盘输入的工作人员也会有出错的时候,这时要重新校正一次或能允许些许的错,就完全看使用单位的需求了。
    结果输出:其实输出是件简单的事,但却须看使用者用OCR到底为了什么?有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样,所以有原文重现的功能、有人注重表格内的文字,所以要和Excel等软件结合。无论怎么变化,都只是输出档案格式的变化而已。

]]>

, , , , ,

评论已经关闭

顶部