基于云计算的数据挖掘平台架构及其关键技术研究
联机事务处理系统(OLTP)数据、联机分析处理系统(OLAP)数据、各种日志数据、爬虫数据等,同时要提供多种数据同步方式,例如数据库实时同步、socket消息同步、文件传输协议同步等各种各样的方式,如图3所示。
数据汇集调度中心主要是完成对不同类型数据的汇集。本数据汇集调度中心采用模板化设计技术,支持新数据的模板和元数据配置以达到不同业务数据的统一收集和规约。
3.3服务调度和服务管理技术
为了能够让不同的业务系统使用本计算平台,平台必须要提供服务调度和服务管理功能。服务调度根据服务的优先级以及服务和资源的匹配情况等进行调度,解决服务的并行互斥、隔离等,保证数据挖掘平台的云服务是安全、可靠的,并根据服务管控进行调度控制。
服务管理实现统一的服务注册、服务暴露等功能,不仅支持本地服务能力的暴露,也支持第三方数据挖掘能力的接入,很好地扩展数据挖掘平台的服务能力。
3.4挖掘算法并行化技术
挖掘算法并行化是有效利用云计算平台提供的基础能力的关键技术之一,涉及到算法是否可以并行、以及并行策略的选择等技术。文章通过K-means聚类算法并行化并行计算框架来说明挖掘算法的并行化技术[13].
3.4.1 K-means算法的主要思想
K-means算法的主要思想是基于使聚类性能指标最小化。这里所用的聚类准则函数是聚类集中每一样本点到该类簇中心点距离平方之和,并使它最小化。如图4所示,K均值算法的处理流程如下:首先,随机地选择k个对象,每个对象代表一个簇的初始均值和中心;对剩余的每个对象,则根据其与各个簇的均值距离,将它指派到最相似的簇;然后计算每个簇的新均值。这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如(1):
其中,E是数据集中所有对象的平方误差和,p是空间中的点,表示给定的对象,mi是簇Ci的均值。对于每个簇中的每个对象,首先要求出对象到其簇中心的均值的平方,然后再求和。
3.4.2 K-means并行化思路
是以聚类中心来划分聚类的,一旦k个聚类中心确定了,聚类可立即完成。因此,这里主要讲述如何并行实现更新聚类中心[14].
在随机的初始化k个聚类中心以后,每一次任务的执行都会更新当前个聚类中心的值。在映射阶段,对于每一个样本O S,需要计算与其最近的聚类中心O i (0≤i≤,然后输出键值对。
在化简(Reducer)阶段,框架会收集属于相同键的值,相当于对每个聚类中心O i (0≤i≤k -1),而离它最近的样本都会作为值收集起来。这样Reducer里就可以利用这些样本重新估计出k个聚类中心,如所示:
这样,在一轮MapReduce完成后,新的聚类中心也已经计算出来。通过比较本轮聚类中心与上一轮聚类中心差异度,可确定算法是否收敛。
4结束语
文章通过对数据挖掘和云计算技术的发展分析,提出了基于云计算的数据挖掘平台架构以及数据挖掘服务化的思路。本平台不仅仅是基于云计算实现了一个数据挖掘平台,同时也对数据挖掘平台进行了化。本平台可以为运营商、企业提供效益增值的数据挖掘应用,同时也减少了运营商、企业在数据挖掘技术上的投入。运营商、企业即可以创建自己内部的数据挖掘私有云,为内部产品提供数据挖掘服务,也可以提供数据挖掘公用云,为不同的企业提供数据挖掘服务。
..............................................
与非深度解读系列:
半导体公司"大学计划"的追问和真相
大环境的不景气是就业环境恶化的元凶,但是也让我们不禁追问半导体公司的大学计划对于学子们的真正意义。厂商们的大学计划都在做些什么?那么多的联合实验室有得到充分利用吗?大学计划的直接体验者--老师和学生们是否真正从中受益…….【专栏作者:高扬】
本土IC公司调查笔记
全球经济不景气的大环境下一些本土IC公司的创新能力、管理能力、抗风险能力、盈利能力,甚至公司创立的动机都受到一些质疑。一方面官方的消息总是告诉我们中国的半导体产业得到了长足的进步;而街巷小道中又不绝流传多少本土IC公司倒闭,多少公司靠欺骗,根本没有核心竞争力….真相只有一个,也许会随《本土IC公司调查笔记》慢慢开启…【专栏作者:岳浩】
电子屌丝的技术人生系列
在这个系列里,每个故事都会向你展示一个普通工程师的经历,他们的青葱岁月和技术年华,和我们每个人的的生活都有交集。对自己、对公司、对产业、对现在、对未来、对技术、对市尝对产品、对管理的看法,以及他们的经历或正在经历的事情,我们可以看到自己的影子,也看清
- 根据新技术特点浅谈数据仓库和数据挖掘架构(05-19)
- 数据挖掘技术在客户管理中的应用研究(05-21)
- 基于空间数据库的数据挖掘技术(07-20)
- 大数据时代,这十五大关键技术你竟不知道?(01-17)
- WiMAX正确定位应该是移动互联网吗?(10-04)
- 巨头扎堆移动互联网(10-24)