数据仓库概述与在通信运维系统中的应用
通信运营维护的发展,一直与信息技术的发展水平密不可分。从最早期的计算机数据处理,到今天广为使用的计算机数据分析。每一次信息技术的发展都会带来通信运营维护的变化。在其中,数据库技术尤为重要。
数据库系统直接和运营维护系统的核心--运营数据相关,负责数据的收集、存储、更新和运算。随着现代商用数据库技术的发展,作为数据库技术分支的数据仓库技术为当前的运营维护系统进行进一步的数据分析和应用提供了重要的技术基础。如何使用数据仓库,合理利用数据仓库提供的能力为运营系统服务,往往成为运营维护系统的重要问题。
在这样的背景下,本系列结合通信运营维护的客观需要,以重要的商用数据库--DB2为例,主要阐述了当前重要的数据仓库技术,以及如何在通信运营维护系统中去使用这些现代数据库技术去支持运维工作。
一、数据库和数据仓库
数据库已经在信息技术领域有了广泛的应用,我们社会生活的各个部门,几乎都有各种各样的数据库保存着与我们的生活息息相关的各种数据。作为数据库的一个分支,数据仓库概念的提出,相对于数据库从时间上就近得多。美国著名信息工程专家 William Inmon 博士在90年代初提出了数据仓库概念的一个表述,认为:"一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策过程的支持。"
这里的主题,是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
集成,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
随时间变化,是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
二、数据仓库的应用
单纯从定义出发,可能会把数据仓库简单地理解为仅仅是一个大型的数据存储机制,是一个静态的概念。实际上,数据仓库更像一个过程,这个过程涉及数据的收集、整理和加工,生成决策所需要的信息,并且最终把这些信息提供给需要这些信息的使用者,供他们做出改善业务经营的正确决策。数据仓库的重点与要求就是能够准确、安全、可靠地从业务系统中取出数据,经过加工转换成有规律信息之后,供管理人员进行分析使用。因此,数据仓库是一个动态的过程,它的基础,就是现代的数据库技术。
单讲概念,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以通信运维系统为例,数据库是事务系统的数据平台,客户打的每一个电话,都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某地区某类用户一个月打了多少个电话,都是多长时间的,发了多少短信,该用户当前话费余额是多少。如果通话时间很长,而短信很少,那么该用户就是一个偏语音通话的客户了。
显然,电话和短信的业务量是巨大的,通常以百万甚至千万来计算。事务系统是实时的,这就要求时效性,客户打一个电话要等十几秒肯定是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
从上面的例子可以看出,数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如通话时间(什么时候打的电话),业务类型(语音通话,短信息,数据通信)维表放的就是这些东西的定义,事实表里放着要查询的数据。
三、数据仓库的特点
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的"大型数据库"。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特点:
1. 效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库
- 什么是空间数据仓库(06-06)
- 建立数据仓库:入门的八个诀窍(08-07)
- SQL Server数据库涉及到的数据仓库概念 (11-24)
- 根据新技术特点浅谈数据仓库和数据挖掘架构(05-19)
- 快速了解数据仓库及数据建模的常用新术语(06-05)
- 动态数据仓库设计与应用浅谈(05-27)