微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 嵌入式设计 > 一种文档图像检索算法设计和实现

一种文档图像检索算法设计和实现

时间:07-04 来源:互联网 点击:

                      1. 在像素级上进行处理是:当出现行阶跃跳变的情况时,使用如图2的模板来对其进行填充。因为文档图像的行块在4个方向上都有可能出现这种阶跃,所以采用一个3×3的模板,以位置5为中心点,如图3所示,4种情况都包含其中:1和4为非文本像素,对4进行填充;3和6为非文本像素,对6进行填充;4和7为非文本像素,对4进行填充;6和9为非文本像素,对6进行填充。如果填充之后依然有符合结构的像素,则继续填充,即把需要填充的区域都填充完整。填充前后的图像如图4所示。

                        1.3 行线标记

                        通过对得到的二值图像的行跳变的填补,文本行的变化相对比较平滑,这有利于行线的标记。本方法取每个文本行的下边缘来作为行线。因为背景区域为黑色,文字区域为白色,所以对文档图像进行扫描,从黑色区域进入白色区域时所遇到的第一个像素进行标记,这样就把每一行的行线标记出来了,所得到的行线是单像素的。这种方法的优点是可以抗倾斜。

                        图5(a)为对图1中的图像中的行用直线的方式标记出来。为了验证提取出的行线与原图是否一致,将它与原图(如图5(b)所示)进行了匹配,可以看出,所得结果是比较满意的。

                        2 匹配算法

                        本文所采用的方法是将行线抽象为空间中的一个点,点的灰度值定义为行线的长度。全局匹配模式考虑版面的加权平均,用于全局位置进行匹配,这个过程相当于文本区定位过程。局部匹配模式是定义两个行在位置、尺寸上的变化情况,通过位置优先(版面)得到匹配模式,进而对匹配误差能量进行计算。

                        匹配方法转化为两组点之间的匹配定义问题,点模式简化了问题的复杂性,只包含了版面结构信息、长度信息和尺寸信息。

                        中心点加权匹配方式不能完全解决问题,图像在两个尺度上的缩放对这种方式影响极大。使用归一化的尺寸可部分解决这个问题,但归一化后仍需计算中心点的位置,通过中心点进行坐标转换,使用坐标转换后的新的点模式对差异性进行度量。

                        每一行起始坐标的相对坐标是(xi′,yi′),xi′=xi-x0,yi′=yi-y0。图6为将行线抽象为空间中的点的图像,其中亮度代表该行的长度,位置为起点坐标。

                        (2)距离匹配模式计算

                        将两个页面的中心点对齐,从第一个页面的第一行开始,与另一个页面每行进行比较。假如另一个页面的相对坐标是(uj′,vj′),j=0,…,n-1,每行长度为wj。计算两个待比较页面的坐标及长度的差Δxi、Δyi、Δzi,其中:Δxi=xi′-uj′,Δyi=yi′-vj′,Δzi=zi-wj。则定义差异能量为:

                        dEnerge(i)=Δxi+Δyi+Δzi

                        将第一个页面的第一行与第二个页面的每一行进行比较,得到n个差异能量,求这n个差异能量的最小值min(dEnerge(i))。第一个页面共有m行,将得到m个值,对其求和:

                        不匹配的情况经常发生,例如一个图像中含有4个点模式,另一个图像中含有10个点模式,内部点模式之间具有结构相关性,结构上的相关性定义为点模式位置掩模距离,该距离用来度量点模式全局匹配能力。如果一个点模式为另一个点模式的子模式,则该方法实现子图检索功能,模式距离最小时,产生最佳匹配。最佳匹配时,产生更为细致的行线检索能力。使用掩模方法是为了产生更好的查准率。

                        3 实验结果与分析

                        应用上述方法进行了实验,数据为手写体英文,数据采集分辨率为100 dpi,256级灰度图像,数据量为100幅文档图像。对不同的图像分别比较它们的相似度。图7(b)、(c)、(d)是与图7(a)的相似度分别为40.422 9、45.760 7和43.407 8的图像。图8(b)、(c)、(d)是与图8(a)原图像版面结构相似的几种图像类型。图9(b)、(c)、(d)是与图9(a)原图像版面结构具有差异的几种图像类型。

                        本文使用对100幅文档图像两两进行版面结构的匹配,共有4 950种结果。实验结果表明,两种不同版面的能量差异最大的在340左右,如图10所示。横坐标显示的是100幅图像两两匹配出现的情况的数目,可以取到的最大坐标为4 950,纵坐标为各匹配情况对应的能量差异,最大值350。从图中可以看出能量差异主要集中在50~200之间。

                        各个能量点的频数的直方图如图11所示,图中横坐标为能量差异数据,最大为340左右,提取到350。纵坐标为取到各个能量的情况的数目的累加。从图11可以更直观地观察到能量差异在50~200之间的数目最多。

                        实验结果表明:(1)文档图像的版面结构具有相对的稳定性。(2)点匹配模式计算了最小距离,可有效表示图像的文本行基本信息。(3)距离匹配较为简单,使用了三个维度的一维

  • Copyright © 2017-2020 微波EDA网 版权所有

    网站地图

    Top