八个提示 清楚认识数据仓库建立
时间:07-13
来源:TechTarget
点击:
不同的环境对于建立数据仓库会带来不同的问题,本文中的这些问题对于许多公司着手建立商业智能(Business Intelligence, BI)应用程序已经足够了:
管理层的支持
这是你需要克服的第一个也是最重要的一个挑战。包括我在内,许多技术人员都被这些政策而不是软件所困扰。我们要知道是谁在付给我们薪水,如果管理层不确定他们需要一个数据仓库,那我们的一切技术都将是徒劳的。
不幸的是,高层经常认为数据仓库是另一个系统,他们必须要对此进行调查而后做出决定。而你的工作就是要使用他们确信,他们并不是在为一些无用的东西买单,数据仓库可以对分散在企业各处的数据进行整合和分析,从而帮助他们做出更好的决策。在数据仓库应用程序实现以后,并不会对公司原有的操作进行改变。有时,通过建立一个概念证明模型(proof-of-a-concept, POC)可以帮助你给他们解释商业智能(BI)。POC数据仓库只包含全部数据的很小的一部分,并且只暴露给少数用户,以便进行测试。及时你不能使用POC进行证明,你也应该就数据仓库的一部分为用户进行解释,告诉他们这对他们将是非常有用的。由此,可以使他们对于数据仓库非常感兴趣,并认为数据仓库可以提高他们的工作效率。
数据有效性
数据仓库经常需要将许多的数据源进行连接,有时,这些数据源并不那么明显或者容易获得。根据公司规模的不同,你可能需要往返于不同的办公室,与许多雇员交流,以获得为用户建立分析试图所需要的数据。另一方面,根据企业政策的不同,你会发现你很难得到所有必要的数据元素,有些数据可能包含机密信息或者高明感度的细节。此外,有些数据可能是由其它公司以报告的方式提供的,他们并不保证你可以访问他们的数据源。
你要怎样才能克服这一困难呢?首先,你要让每个人确信,你并不是要取代他们的工作。数据仓库是对现有系统的补充而不是替代。如果你能得到管理层的支持,那么公司内部的员工将不会带来很多问题。但是,如果由于一些意外的原因无法访问数据源,你就不得不发挥你的创造性已解决这一问题了。如果数据只能以报告或者书面形式获得的话,那么你可能需要通过抓取报告屏幕或者扫描文件方式以获得数据。
数据源的复杂性
有时,你可能很幸运的得到了你选择的数据库管理系统(Database Management System, DBMS)中的全部数据。然而更多的时候,数据可能会分散在数据库管理系统、电子表格、电子邮件系统、电子文档甚至纸上。是的,我们确实生活在二十一世纪,但是请记住,仍然有些公司通过纸面的形式来记录信息。你必须要想办法解决如何为你的数据仓库得到所需要的数据源,并为它们建立一个统一的模型。
数据质量
有些人由于知识和经验的局限,并不了解他们所使用的快速开发工具和技术,他们有时会一起抛出许多事物处理程序。这并没有贬义,但初级程序员确实是公司里占用资源作多的人。问题在于如果应用程序没有检验数据的有效性,那么你所遇到的字符串值很肯能使缩写的、拼写错误的或者完全忽略的。对于事务级的报告,这可能并不是一个严重的问题,但当你试图将数据归类或者为用户提供据测能力帮助时,数据质量问题是非常严重的。
比如下面的命名:
a. ACME Boot Outlet
b. ACME bt outlt
c. A.C.M.E
d. Boots (ACME)
e. A c m e boot store (outlet)
人们一眼就可以看出,上面所指的是同一个商业实体。但是计算机程序却做不到,它会讲每一个值作为一个单独的客户。不幸的是,Integration Services(或Data Transformation Services)包并没有提供修正所有这些不好数据的简单的方法。SQL Server 2005 Integration Services提供Fuzzy Lookup Transformation的功能,它可以大大简化你的数据清理工作,尽管如此,你可能还是必须做一些修正数据的书记工作。
你的用户数量和他们的技术领悟力。帮助少数用户取得他们需要的数据以便进行决策并不是一件非常容易的事。从历史上说,数据仓库是为高层管理人员服务的。然而,数据仓库正逐渐的被大多数人所使用。许多用户使用数据仓库或者商业智能(BI)进行不必要的策略决策的行为并不罕见。
一旦你的用户看到了数据仓库的强大功能,他们就会想在各个地方都使用它,从数据访问到事务级报告的检索,无一例外。你的用户群越大,保持每个人都满意并培训他们恰当的使用你的应用程序就越困难。如果恰当的使用,商业智能(BI)可以发挥很大的作荣,但它并不适合所有的商业需求。有时你不得不告诉你的用户,数据仓库并不能提供他们所需要的功能。
管理层的支持
这是你需要克服的第一个也是最重要的一个挑战。包括我在内,许多技术人员都被这些政策而不是软件所困扰。我们要知道是谁在付给我们薪水,如果管理层不确定他们需要一个数据仓库,那我们的一切技术都将是徒劳的。
不幸的是,高层经常认为数据仓库是另一个系统,他们必须要对此进行调查而后做出决定。而你的工作就是要使用他们确信,他们并不是在为一些无用的东西买单,数据仓库可以对分散在企业各处的数据进行整合和分析,从而帮助他们做出更好的决策。在数据仓库应用程序实现以后,并不会对公司原有的操作进行改变。有时,通过建立一个概念证明模型(proof-of-a-concept, POC)可以帮助你给他们解释商业智能(BI)。POC数据仓库只包含全部数据的很小的一部分,并且只暴露给少数用户,以便进行测试。及时你不能使用POC进行证明,你也应该就数据仓库的一部分为用户进行解释,告诉他们这对他们将是非常有用的。由此,可以使他们对于数据仓库非常感兴趣,并认为数据仓库可以提高他们的工作效率。
数据有效性
数据仓库经常需要将许多的数据源进行连接,有时,这些数据源并不那么明显或者容易获得。根据公司规模的不同,你可能需要往返于不同的办公室,与许多雇员交流,以获得为用户建立分析试图所需要的数据。另一方面,根据企业政策的不同,你会发现你很难得到所有必要的数据元素,有些数据可能包含机密信息或者高明感度的细节。此外,有些数据可能是由其它公司以报告的方式提供的,他们并不保证你可以访问他们的数据源。
你要怎样才能克服这一困难呢?首先,你要让每个人确信,你并不是要取代他们的工作。数据仓库是对现有系统的补充而不是替代。如果你能得到管理层的支持,那么公司内部的员工将不会带来很多问题。但是,如果由于一些意外的原因无法访问数据源,你就不得不发挥你的创造性已解决这一问题了。如果数据只能以报告或者书面形式获得的话,那么你可能需要通过抓取报告屏幕或者扫描文件方式以获得数据。
数据源的复杂性
有时,你可能很幸运的得到了你选择的数据库管理系统(Database Management System, DBMS)中的全部数据。然而更多的时候,数据可能会分散在数据库管理系统、电子表格、电子邮件系统、电子文档甚至纸上。是的,我们确实生活在二十一世纪,但是请记住,仍然有些公司通过纸面的形式来记录信息。你必须要想办法解决如何为你的数据仓库得到所需要的数据源,并为它们建立一个统一的模型。
数据质量
有些人由于知识和经验的局限,并不了解他们所使用的快速开发工具和技术,他们有时会一起抛出许多事物处理程序。这并没有贬义,但初级程序员确实是公司里占用资源作多的人。问题在于如果应用程序没有检验数据的有效性,那么你所遇到的字符串值很肯能使缩写的、拼写错误的或者完全忽略的。对于事务级的报告,这可能并不是一个严重的问题,但当你试图将数据归类或者为用户提供据测能力帮助时,数据质量问题是非常严重的。
比如下面的命名:
a. ACME Boot Outlet
b. ACME bt outlt
c. A.C.M.E
d. Boots (ACME)
e. A c m e boot store (outlet)
人们一眼就可以看出,上面所指的是同一个商业实体。但是计算机程序却做不到,它会讲每一个值作为一个单独的客户。不幸的是,Integration Services(或Data Transformation Services)包并没有提供修正所有这些不好数据的简单的方法。SQL Server 2005 Integration Services提供Fuzzy Lookup Transformation的功能,它可以大大简化你的数据清理工作,尽管如此,你可能还是必须做一些修正数据的书记工作。
你的用户数量和他们的技术领悟力。帮助少数用户取得他们需要的数据以便进行决策并不是一件非常容易的事。从历史上说,数据仓库是为高层管理人员服务的。然而,数据仓库正逐渐的被大多数人所使用。许多用户使用数据仓库或者商业智能(BI)进行不必要的策略决策的行为并不罕见。
一旦你的用户看到了数据仓库的强大功能,他们就会想在各个地方都使用它,从数据访问到事务级报告的检索,无一例外。你的用户群越大,保持每个人都满意并培训他们恰当的使用你的应用程序就越困难。如果恰当的使用,商业智能(BI)可以发挥很大的作荣,但它并不适合所有的商业需求。有时你不得不告诉你的用户,数据仓库并不能提供他们所需要的功能。
- Teradata为业务用户提供增强的分析能力(06-08)
- Teradata实验室推出创新的数据仓库概念(10-08)
- Gartner 评选Teradata为CRM领导厂商(04-16)
- 动态数据仓库帮助一线员工决策(06-12)
- 数据仓库向外部用户开放(08-14)
- 轻松的掌握如何开发数据仓库(10-04)