基于空间数据库的数据挖掘技术
时间:07-20
来源:watchstor
点击:
1 空间数据库知识发现面临的困难
从空间数据库发现知识的传统途径是通过专家系统、数据挖掘、空间分析等技术来实现的。但是在空间数据库隐含知识的发现方面,只单独依赖某一种技术,往往存在着这样或那样的缺陷。
对于专家系统来讲,专家系统不具备自动学习的能力,GIS中的专家系统也达不到真正的智能系统的要求,仅能利用已有的知识进行推导。对于数据挖掘来讲,空间数据库与普通数据库的在数据存储机制的不同和空间数据的相互依赖性等特点决定了在空间数据库无法直接采用传统的数据挖掘方法。
对于空间分析来讲,虽然空间分析中常用的统计方法可以很好地处理数字型数据,但是它存在的问题很多,如统计方法通常假设空间分布的数据间是统计上独立的,而现实中空间对象间一般是相互关联的;其次,统计模型一般只有具有相当丰富领域知识和统计方面经验的统计专家才能用;另外,统计方法对大规模数据库的计算代价非常高,所以在处理海量数据方面能力较低。
从上面的分析可以看出,由于空间数据具有诸多特点,因此在空间数据库进行知识发现,需要克服使用单一技术的缺陷,即需要融合多种不同技术。所以研究人员提出了空间数据挖掘技术来解决从空间数据库知识发现隐含知识的难题。
空间数据挖掘是多学科和多种技术交*综合的新领域,它综合了机器学习、空间数据库系统、专家系统、可移动计算、统计、遥感、基于知识的系统、可视化等领域的有关技术。
空间数据挖掘利用空间数据结构、空间推理、计算几何学等技术,把传统的数据挖掘技术扩充到空间数据库并提出很多新的有效的空间数据挖掘方法。与传统空间分析方法相比,它在实现效率、与数据库系统的结合、与用户的交互、发现新类型的知识等方面的能力大大增强。空间数据挖掘能与GIS的结合,使GIS系统具有自动学习的功能,能自动获取知识,从而成为真正的智能空间信息系统。
2 扩展传统数据挖掘方法到空间数据库
空间数据挖掘技术按功能划分可分为三类:描述、解释、预测。描述性的模型将空间现象的分布特征化,如空间聚类。解释性的模型用于处理空间关系,如处理一个空间对象和影响其空间分布的因素之间的关系。预测型的模型用来根据给定的一些属性预测某些属性。
预测型的模型包括分类、回归等。以下介绍将几个典型的数据挖掘技术聚类、分类、关联规则扩展到空间数据库的方法。
聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组,而空间数据聚类是按照某种距离度量准则,在某个大型、多维数据集中标识出聚类或稠密分布的区域,从而发现数据集的整个空间分布模式。
经典统计学中的聚类分析方法对海量数据效率很低,而数据挖掘中的聚类方法可以大大提高聚类效率。文献[1]中提出两个基于CLARANS聚类算法空间数据挖掘算法SD和ND,可以分别用来发现空间聚类中的非空间特征和具有相同非空间特征的空间聚类。
SD算法首先用CLARANS算法进行空间聚类,然后用面向属性归纳法寻找每个聚类中对象的高层非空间描述;ND算法则反之。文献[4]中提出一种将传统分类算法ID3决策树算法扩展到空间数据库的方法,该算法给出了计算邻近对象非空间属性的聚合值的方法,并且通过对空间谓词进行相关性分析和采用一种逐渐求精的策略使得计算时间复杂度大大降低。
Koperski等[4]将大型事务数据库的关联规则概念扩展到空间数据库,用以找出空间对象的关联规则。此方法采用一种逐渐求精的方法计算空间谓词,首先在一个较大的数据集上用MBR最小边界矩形结构技术对粗略的空间谓词进行近似空间运算,然后在裁剪过的数据集上用代价较高的算法进一步改进挖掘的质量。
3 空间数据库实现技术
空间数据挖掘系统中,空间数据库负责空间数据和属性数据的管理,它的实现效率对整个挖掘系统有着举足轻重的影响。所以下面详细介绍空间数据库的实现技术。
根据空间数据库中空间数据和属性数据的管理方式,空间数据库有两种实现模式:集成模式和混合模式。后者将非空间数据存储在关系数据库中,将空间数据存放在文件系统中。
这种采用混合模式的空间数据库中,空间数据无法获得数据库系统的有效管理,并且空间数据采用各个厂商定义的专用格式,通用性差。而集成模式是将空间数据和属性数据全部存储在数据库中,因此现在的GIS软件都在朝集成结构的空间数据库方向发展。
下面对集成结构的空间数据库技术中的两个主流技术基于空间数据引擎技术的空间数据库和以Oracle Spatial为代表的通用空间数据库进行比较分析。
空间数据引擎是一种处于应用程序和数据库管理系统之间的中间件技术。使用不同GIS厂商的客户可以通过空间数据引擎将自身的数据交给大型关系型DBMS统一管理;同样,客户也可以通过空间数据引擎从关系型DBMS中获取其他类型GIS的数据,并转化成客户可使用的方式。
它们大多是在Oracle8i Spatial(较成熟的空间数据库版本8.1.7于2000年9月推出)推出之前由GIS软件开发商提供的将空间数据存入通用数据库的解决方案,且该方案价格昂贵。
Oracle Spatial提供一个在数据库管理系统中管理空间数据的完全开放体系结构。Oracle Spatial提供的功能与数据库服务器完全集成。用户通过SQL定义并操作空间数据,且保留了Oracle的一些特性,如灵活的n-层体系结构,对象定义,健壮的数据管理机制,Java存储过程。
它们确保了数据的完整性、可恢复能力和安全性,而这些特性在混合模式结构中几乎不可能获得。在Oracle Spatial中,用户可将空间数据当作数据库的特征使用,可支持空间数据库的复制、分布式空间数据库以及高速的批量装载,而空间中间件则不能。
除了允许使用所有数据库特性以外,Spatial Cart ridge还提供用户使用行列来快速访问数据。使用简单的SQL语句,应用者就能直接选取多个记录。Spatial Cart ridge数据模型也给数据库管理员提供了极大的灵活性,DBA可使用常见的管理和调整数据库的技术。
从空间数据库发现知识的传统途径是通过专家系统、数据挖掘、空间分析等技术来实现的。但是在空间数据库隐含知识的发现方面,只单独依赖某一种技术,往往存在着这样或那样的缺陷。
对于专家系统来讲,专家系统不具备自动学习的能力,GIS中的专家系统也达不到真正的智能系统的要求,仅能利用已有的知识进行推导。对于数据挖掘来讲,空间数据库与普通数据库的在数据存储机制的不同和空间数据的相互依赖性等特点决定了在空间数据库无法直接采用传统的数据挖掘方法。
对于空间分析来讲,虽然空间分析中常用的统计方法可以很好地处理数字型数据,但是它存在的问题很多,如统计方法通常假设空间分布的数据间是统计上独立的,而现实中空间对象间一般是相互关联的;其次,统计模型一般只有具有相当丰富领域知识和统计方面经验的统计专家才能用;另外,统计方法对大规模数据库的计算代价非常高,所以在处理海量数据方面能力较低。
从上面的分析可以看出,由于空间数据具有诸多特点,因此在空间数据库进行知识发现,需要克服使用单一技术的缺陷,即需要融合多种不同技术。所以研究人员提出了空间数据挖掘技术来解决从空间数据库知识发现隐含知识的难题。
空间数据挖掘是多学科和多种技术交*综合的新领域,它综合了机器学习、空间数据库系统、专家系统、可移动计算、统计、遥感、基于知识的系统、可视化等领域的有关技术。
空间数据挖掘利用空间数据结构、空间推理、计算几何学等技术,把传统的数据挖掘技术扩充到空间数据库并提出很多新的有效的空间数据挖掘方法。与传统空间分析方法相比,它在实现效率、与数据库系统的结合、与用户的交互、发现新类型的知识等方面的能力大大增强。空间数据挖掘能与GIS的结合,使GIS系统具有自动学习的功能,能自动获取知识,从而成为真正的智能空间信息系统。
2 扩展传统数据挖掘方法到空间数据库
空间数据挖掘技术按功能划分可分为三类:描述、解释、预测。描述性的模型将空间现象的分布特征化,如空间聚类。解释性的模型用于处理空间关系,如处理一个空间对象和影响其空间分布的因素之间的关系。预测型的模型用来根据给定的一些属性预测某些属性。
预测型的模型包括分类、回归等。以下介绍将几个典型的数据挖掘技术聚类、分类、关联规则扩展到空间数据库的方法。
聚类分析方法按一定的距离或相似性测度将数据分成一系列相互区分的组,而空间数据聚类是按照某种距离度量准则,在某个大型、多维数据集中标识出聚类或稠密分布的区域,从而发现数据集的整个空间分布模式。
经典统计学中的聚类分析方法对海量数据效率很低,而数据挖掘中的聚类方法可以大大提高聚类效率。文献[1]中提出两个基于CLARANS聚类算法空间数据挖掘算法SD和ND,可以分别用来发现空间聚类中的非空间特征和具有相同非空间特征的空间聚类。
SD算法首先用CLARANS算法进行空间聚类,然后用面向属性归纳法寻找每个聚类中对象的高层非空间描述;ND算法则反之。文献[4]中提出一种将传统分类算法ID3决策树算法扩展到空间数据库的方法,该算法给出了计算邻近对象非空间属性的聚合值的方法,并且通过对空间谓词进行相关性分析和采用一种逐渐求精的策略使得计算时间复杂度大大降低。
Koperski等[4]将大型事务数据库的关联规则概念扩展到空间数据库,用以找出空间对象的关联规则。此方法采用一种逐渐求精的方法计算空间谓词,首先在一个较大的数据集上用MBR最小边界矩形结构技术对粗略的空间谓词进行近似空间运算,然后在裁剪过的数据集上用代价较高的算法进一步改进挖掘的质量。
3 空间数据库实现技术
空间数据挖掘系统中,空间数据库负责空间数据和属性数据的管理,它的实现效率对整个挖掘系统有着举足轻重的影响。所以下面详细介绍空间数据库的实现技术。
根据空间数据库中空间数据和属性数据的管理方式,空间数据库有两种实现模式:集成模式和混合模式。后者将非空间数据存储在关系数据库中,将空间数据存放在文件系统中。
这种采用混合模式的空间数据库中,空间数据无法获得数据库系统的有效管理,并且空间数据采用各个厂商定义的专用格式,通用性差。而集成模式是将空间数据和属性数据全部存储在数据库中,因此现在的GIS软件都在朝集成结构的空间数据库方向发展。
下面对集成结构的空间数据库技术中的两个主流技术基于空间数据引擎技术的空间数据库和以Oracle Spatial为代表的通用空间数据库进行比较分析。
空间数据引擎是一种处于应用程序和数据库管理系统之间的中间件技术。使用不同GIS厂商的客户可以通过空间数据引擎将自身的数据交给大型关系型DBMS统一管理;同样,客户也可以通过空间数据引擎从关系型DBMS中获取其他类型GIS的数据,并转化成客户可使用的方式。
它们大多是在Oracle8i Spatial(较成熟的空间数据库版本8.1.7于2000年9月推出)推出之前由GIS软件开发商提供的将空间数据存入通用数据库的解决方案,且该方案价格昂贵。
Oracle Spatial提供一个在数据库管理系统中管理空间数据的完全开放体系结构。Oracle Spatial提供的功能与数据库服务器完全集成。用户通过SQL定义并操作空间数据,且保留了Oracle的一些特性,如灵活的n-层体系结构,对象定义,健壮的数据管理机制,Java存储过程。
它们确保了数据的完整性、可恢复能力和安全性,而这些特性在混合模式结构中几乎不可能获得。在Oracle Spatial中,用户可将空间数据当作数据库的特征使用,可支持空间数据库的复制、分布式空间数据库以及高速的批量装载,而空间中间件则不能。
除了允许使用所有数据库特性以外,Spatial Cart ridge还提供用户使用行列来快速访问数据。使用简单的SQL语句,应用者就能直接选取多个记录。Spatial Cart ridge数据模型也给数据库管理员提供了极大的灵活性,DBA可使用常见的管理和调整数据库的技术。
空间数据库 数据挖掘 Oracle8i Spatial 相关文章:
- 根据新技术特点浅谈数据仓库和数据挖掘架构(05-19)
- 数据挖掘技术在客户管理中的应用研究(05-21)
- 基于云计算的数据挖掘平台架构及其关键技术研究(01-20)
- 大数据时代,这十五大关键技术你竟不知道?(01-17)
閻忓繐瀚伴。鑸电▔閹捐尙鐟归柛鈺冾攰椤斿嫰寮▎鎴旀煠闁规亽鍔忓畷锟�
- 濡ゅ倹岣挎鍥╀焊閸曨垼鏆ョ€规悶鍎抽埢鑲╂暜閸繂鎮嬮柟瀛樺姇閻撹法鎷嬮鐔告畬缂佸顑呴〃婊呮啑閿燂拷
闁稿繈鍔嶉弻鐔告媴瀹ュ拋鍔呭☉鏃傚Т閻ㄧ姵锛愰幋婊呯懇濞戞挻姘ㄩ悡锛勬嫚閸☆厾绀夐柟缁樺姇瀹曞矂鎯嶉弬鍨岛鐎规悶鍎扮紞鏃堟嚄閽樺顫旈柨娑樿嫰婵亪骞冮妸銉﹀渐闂侇偆鍠愰崹姘舵⒐婢舵瓕绀嬪ù鍏坚缚椤懘鎯冮崟顐ゆ濡増鍨垫导鎰矙鐎n亞鐟�...
- 濞戞搩鍘炬鍥╀焊閸曨垼鏆ョ€规悶鍎抽埢鑲╂暜閸繂鎮嬮柟瀛樺姇閻撹法鎷嬮鐔告畬缂佸顑呴〃婊呮啑閿燂拷
缂侇噣绠栭埀顒婃嫹30濠㈣埖宀稿Λ顒備焊閸曨垼鏆ラ柛鈺冾攰椤斿嫮鎷犻崜褉鏌ら柨娑樺缁楁挾鈧鍩栧璺ㄦ嫚閹惧懐绀夐柛鏂烘櫅椤掔喖宕ㄥΟ鐑樺渐闂侇偆鍠曢幓顏堝礆妫颁胶顏卞☉鎿冧簻閹酣寮介悡搴f濡増鍨垫导鎰矙鐎n亞鐟庨柣銊ュ椤╋箑效閿燂拷...
- Agilent ADS 闁轰焦鐟ラ鐔煎春绾拋鍞查悹鍥у⒔閳诲吋绺藉Δ鍕垫
濞戞挻鎸搁宥夊箳閸綆鍤﹂柨娑樿嫰閸欏繘妫冮姀锝庡敼閻熸瑯鏋僁S闁告艾瀚~鎺楀礉閻旇鍘撮柛婊冭嫰娴兼劗绮欑€n亞瀹夐柣銏╃厜缁遍亶宕濋埡鍌氫憾闁烩偓鍔嶅〒鍫曟儗椤撶姵鐣遍柡鍐ㄧ埣濡法鈧冻缂氱槐鐧咲S...
- HFSS閻庢冻缂氱弧鍕春绾拋鍞查悹鍥у⒔閳诲吋绺藉Δ鍕垫
閻犙冨缁讳焦绋夐幘鎰佸晙闁瑰搫鐗愰鎶芥晬鐏炶棄寮块梻鍫涘灱椤斿骞掗崷娆禨S闁汇劌瀚慨娑㈡嚄閽樺瀚查幖瀛樻⒒閺併倝鏁嶇仦钘夌盎闁告柡鏅滈崑宥夊礂閵娾晜妗ㄧ紒顖濆吹缁椽宕烽弶娆惧妳濞戞梻濮电敮澶愬箵椤″锭SS...
- CST鐎甸偊鍠楃亸婵嗩啅閵夈倗绋婇悗骞垮€曢悡璺ㄦ媼椤撶喐娈岀紒瀣儏椤ㄦ粎鎲楅敓锟�
闁哄瀛╁Σ鎴澝虹€b晛鐦滈悹浣筋嚋缁辨繈宕楅妸鈺傛〃閻犱礁寮跺绶維T闁告艾瀚伴妴宥夊礉閻旇鍘撮柛婊冭嫰娴兼劗绮欑€n亞瀹夐柣銏╃厜缁辨繈宕濋埡鍌氫憾闊浂鍋婇埀顒傚枙閸ゆ粎鈧冻闄勭敮澶愬箵椤″T閻犱焦宕橀鍛婃償閺冨倹鏆�...
- 閻忓繐瀚伴。鍫曞春閾忚鏀ㄩ柛鈺冾攰椤斿嫮鎷犻崜褉鏌�
濞戞挸娲g粭鈧Δ鍌浬戦妶濂哥嵁閸愬弶鍕鹃悹褍鍤栫槐婵囨交濞嗗海鏄傞悹鍥у⒔閳诲吋绋夋潪鎵☉闁革负鍔岄惃鐘筹紣閹寸偛螚闁哄牜鍨堕。顐﹀春閻旀灚浜i悘鐐存礃鐎氱敻鎳樺鍓х闁瑰灚鎸风粭鍛村锤濮橆剛鏉介柣銊ュ缁楁挻绋夊顒傚敤缁绢厸鍋�...
- 鐎甸偊鍠楃亸婵堜焊閸曨垼鏆ユ繛鏉戭儔閸f椽骞欏鍕▕闁糕晝顢婇鍕嫚閸撗€鏌ら柛姘墦濞夛拷
閻犳劦鍘洪幏閬嶅触閸儲鑲犻柡鍥ㄦ綑閻ゅ嫰骞嗛悪鍛缂傚啯鍨甸崹搴ㄥΥ娓氣偓椤e墎鎷崣妯哄磿闁靛棔鑳堕妵姘枖閵忕姵鐝ら柕鍡曟娣囧﹪宕i柨瀣埍闁挎稑鏈崹婊呮啺娴e湱澹夐柡宥夘棑缁ㄥ潡鏌呴敓锟�...
栏目分类