微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 嵌入式设计 > 一种文档图像检索算法设计和实现

一种文档图像检索算法设计和实现

时间:07-04 来源:互联网 点击:

摘 要: 介绍了一种基于版面结构距离的文档图像检索算法,使用版面特征作为文档图像的特征检索图像。先将文档图像进行梯度和最大梯度差(MGD)计算,然后使用MGD值作为一个窗口对文本区域进行融合,将文档图像以行线的形式标示出来。同时给出了检索的匹配方法,并对匹配方法进行了实验。实验结果表明,该检索方法具有较高的查准率,具有很好的抗倾斜和抗缩放效果。

文档图像一般意为含有文字信息的图像,目前大多数信息是以数字化形式存在的,并以文档的形式组织起来存放在数据库中。在这样的数据库中查找有关资料其技术是关键。常见的文档图像检索方法是基于内容的文档图像检索(CBIR)。它是利用图像本身的信息,通常以图像特征(颜色、纹理、形状、结构布局和语义特征等)的相似性为检索依据,根据每幅图像都有的可比较特征进行检索。

近年来,数字化文档被广泛应用于办公自动化、数字化图书馆、工业自动化等领域。随着科技的发展,传统扫描仪体积大、效率低、携带不方便等不足之处日益突出,而数字照相机体积小、价位低,可以很容易地携带并结合到手机、 手提电脑以及各种网络设备中去,它还可以远距离地对背景文字及脆弱的珍贵文档拍照, 更适用于无约束环境下的数字化操作。因此,将数字照相机引入文档图像分析已经引起越来越多人的关注。

Newman的调查表明,从报纸上提取段落时,基于PC摄像头的OCR操作比基于扫描仪的OCR操作效率高得多;Fisher等调查了在战场上用数字摄像机替换士兵携带sheet-fed扫描仪的可能性。经证实,数字摄像机能够以200dpi拍摄整张A4文档纸,已经达到OCR所要求的分辨率。

BEUSEKOM J V.等人提出了一种基于版面分析的文档图像检索的距离度量方法,将文本区域分为不同的矩形块,然后找到块的中心点,利用角点的曼哈顿距离来计算块之间的距离,再利用三种不同的方法进行匹配[1];WONG K Y.使用游程平滑算法进行版面信息提取的方法[2];BREUEL T M.提出了使用Whitespace算法来提取版面信息[3]。

图像匹配是指通过一定的匹配算法在两幅或多幅图像之间识别同名点,如二维图像匹配中通过比较目标区和搜索区中相同大小的窗口的相关系数,取搜索区中相关系数最大所对应的窗口中心点作为同名点。其实质是在基元相似性的条件下,运用匹配准则的最佳搜索问题。

灰度匹配的基本思想:以统计的观点将图像看成是二维信号,采用统计相关的方法寻找信号间的相关匹配。利用两个信号的相关函数,评价它们的相似性以确定同名点。

灰度匹配通过利用某种相似性度量,如相关函数、协方差函数、差平方和、差绝对值和等测度极值,判定两幅图像中的对应关系。

最经典的灰度匹配法是归一化的灰度匹配 法,其基本原理是逐像素的把一个以一定大小的实时图像窗口的灰度矩阵,与参考图像的所有可能的窗口灰度阵列,按某种相似性度量方法进行搜索比较的匹配方法,从理论上说就是采用图像相关技术。

利用灰度信息匹配方法的主要缺陷是计算量太大,因为使用场合一般都有一定的速度要求,所以这些方法很少被使用。现在已经提出了一些相关的快速算法,如幅度排序相关算法,FFT相关算法和分层搜索的序列判断算法等。

1 相关工作

1.1 文本行标记

将得到的文档图像进行预处理,具体的处理方法是:使用文本行标记算法实现文字区域的行定位。本文使用[-1,0,1]对图像进行处理计算其梯度,然后计算其MGD。MGD计算方法如下:在一个大小为n的窗口内,用它的最大梯度差来进行填充,以达到文本融合的目的。因为英文和中文的字符宽度不同,根据具体的情况选择n,大于字符间距即可。将计算出来的梯度求它的最大值和最小值,然后相减,即为最大梯度差。将得到的MGD图像使用最大类间方差方法[5](OTSU)求出阈值得到二值图像[2]。图1为使用上述方法对行块进行标记的图像。

1.2 消除阶跃跳变

对于手写体或者英文的文档,会出现字符高低不一、笔画不连续等情况。线特征产生的断点可采用形态学方法、凸凹点处理和噪声处理三种基本策略提高直线的连续性,然后采用阶梯插补算法来消除阶跃跳变,算法的复杂度相对较低。

在像素级上进行处理是:当出现行阶跃跳变的情况时,使用如图2的模板来对其进行填充。因为文档图像的行块在4个方向上都有可能出现这种阶跃,所以采用一个3×3的模板,以位置5为中心点,如图3所示,4种情况都包含其中:1和4为非文本像素,对4进行填充;3和6为非文本像素,对6进行填充;4和7为非文本像素,对4进行填充;6和9为非文本像素,对6进行填充。如果填充之后依然有符合结构的像素

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top