基于云计算的数据挖掘平台架构及其关键技术研究
2数据挖掘平台云架构
云计算的分布式存储和分布式计算促使了新一代数据挖掘平台的变革。图2是基于云的数据挖掘平台架构。考虑到挖掘算法和推荐算法的并行化和分布化是一个专门的、大的课题,因此文章暂不包含具体算法的并行化和云化的内容。
如图2所示,该平台是基于云计算平台实现的数据挖掘云服务平台,采用分层设计的思想以及面向组件的设计思路,总体上分为3层,自下向上依次为:云计算支撑平台层、数据挖掘能力层、数据挖掘云服务层。
?云计算支撑平台层
云计算支撑平台层主要是提供分布式文件存储、数据库存储以及计算能力。中兴通讯有自主研发的云计算平台,该架构可以基于企业自主研发的云计算平台,也可以基于第三方提供的云计算平台。
?数据挖掘能力层
数据挖掘能力层主要是提供挖掘的基础能力,包含算法服务管理、调度引起、数据并行处理框架,并提供对数据挖掘云服务层的能力支撑。该层可以支持第三方挖掘算法工具的接入,例如Weka、Mathout等分布式算法库,同时也可以提供内部的数据挖掘算法和推荐算法库。
?数据挖掘云服务层
云服务层主要是对外提供数据挖掘云服务,服务能力封装的接口形式可以是多样的,包括基于简单对象访问协议(SOAP)的Webservice、、HTTP、XML或本地应用程序编程接口(API)等多种形式。云服务层也可以支持基于结构化查询语言语句的访问,并提供解析引擎,以自动调用云服务。各个业务系统可以根据数据和业务的需要调用、组装数据挖掘云服务。
文章提出的基于云计算的数据挖掘平台与传统的数据挖掘系统架构相比有高可扩展性、海量数据处理能力、面向服务、硬件成本低廉等优越性,可以支持大范围分布式数据挖掘的设计和应用。
3基于云计算数据挖掘平台的关键技术
3.1云计算技术
分布式计算是解决海量数据挖掘任务,提高海量数据挖掘的有效手段之一,在理论和实践上已经获得证实。分布式计算包含了分布式存储和并行计算两个层面的内容,而云计算平台提供了分布式文件存储和并行的计算能力,因此很好地解决了这两个层面的内容。下面主要分析几个主流的分布式文件系统和分布式并行计算框架,以更好地构建云计算数据挖掘平台的核心支撑能力。
分布式文件系统有效地解决了海量数据存储问题,并实现了位置透明、移动透明、性能透明、扩展透明、高容错、高安全、高性能等关键功能。目前业界比较流行分布式文件系统有Google文件系统(GFS)、分布式文件系统(HDFS)、文件系统(KFS),这3种分布式文件系统都是基于Goolgle提出的分布式文件系统理论进行研发的。Google提出的GFS就是解决其海量数据存储和搜索、分析等问题,而和KFS是基于GFS理论基础上实现的开源系统,并且在商业和学术领域得到了广泛的应用。
分布式并行计算框架对于高效完成数据挖掘计算任务极其重要,并且它对分布式计算的一些技术细节进行了封装,例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等,使用户不需要考虑这些细节,而只要考虑任务间的逻辑关系。这样不仅可以提高研发的效率,还可以降低系统维护的成本。目前典型的分布式计算框架有:
。MapReduce是提出的一个并行计算框架,它可以在大量PC机上并行执行海量数据的收集和分析任务。它把如何进行任务并行执行、如何进行数据分布、如何容错、网络带宽时延等问题的解决方案编码,并封装在了一个库里面,使用户只需要执行数据运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节。同时它又对上层应用提供良好简单的抽象接口。MapReduce主要应用在搜索、数据仓库、数据挖掘领域。
。Pregel是Google提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WEB搜索等相关领域。
。Dryad是微软硅谷研究院创建的研究项目,主要用来提供一个基于windows操作系统的分布式计算平台,总体用来支持有向无环图类型数据流的并行程序。微软于年宣布,停止对Dryad进行版本升级,转投Hadoop即MapReduce计算框架。
目前业界开源的云计算平台平台,包含HDFS和MapReduce,为海量数据挖掘平台提供完备的云计算平台支撑平台[12].
3.2数据汇集调度中心
数据汇集调度中心实现对接入本平台的业务数据的汇集,可以解决不同数据的规约问题,并支持各种不同的源数据格式。源数据格式支持
- 根据新技术特点浅谈数据仓库和数据挖掘架构(05-19)
- 数据挖掘技术在客户管理中的应用研究(05-21)
- 基于空间数据库的数据挖掘技术(07-20)
- 大数据时代,这十五大关键技术你竟不知道?(01-17)
- WiMAX正确定位应该是移动互联网吗?(10-04)
- 巨头扎堆移动互联网(10-24)