基于GT4的聚类分析算法研究
时间:02-13
来源:电子技术网
点击:
务与传统的单机数据挖掘任务类似,本课题局部聚类算法使用传统的聚类算法K-平均方法,以K为参数,把N个对象分为K个簇,簇内具有较高的相似度,而簇间的相似度较低[34]。本论文的数据挖掘任务主要是由局部网格节点实现的,下面就详细的介绍K-平均算法的主要执行过程如下:
(1)从数据集中任意选择K个对象作为各个簇的初始中心。
(2)根据现有的簇中心情况,利用距离公式计算其他对象到各个簇中心的距离。(可选的距离公式有:欧几里、行德公式、距离公式、曼哈坦距离公式、明考斯基距离公式)。
(3)根据所得各个对象的距离值,将对象分配给距离最近的中心所对应的簇。
(4)重新生成各个簇的中心。
(5)判断是否收敛。如果收敛,即簇不在发生变化,那么停止划分,否则,重复(2)到(5)。
K-平均算法是一个经典的聚类算法,将K-平均算法部署到GT4中,完成局部聚类算法的Web Service设计,部署方法与全局算法相似。
4.结论
基于GT4的数据挖掘系统中的数据挖掘服务资源有网格的中心控制节点(即全局节点)进行统一的管理,在局部网格节点挖掘过程中,根据其处理能力分配最佳的数据集给局部节点,从而使整个系统的计算负载相对均衡。其数据挖掘系统的规模可随着服务的多少动态伸缩。当系统要增加新的局部挖掘节点时,只需部署局部Web Service资源即可。将网格应用到分布式数据挖掘系统中,建立一个基于网格的数据挖掘系统,必将使其在各个领域都得到广泛的应用。
- LT3751如何使高压电容器充电变得简单(08-12)
- 三路输出LED驱动器可驱动共阳极LED串(08-17)
- 浪涌抑制器IC简化了危险环境中电子设备的本质安全势垒设计(08-19)
- 严酷的汽车环境要求高性能电源转换(08-17)
- 适用于工业能源采集的技术 (08-10)
- 单片式电池充电器简化太阳能供电设计(08-20)