ccidnet????

出版日期:2002-12-23 总期号:1179 本年期号:96

本期导读
要闻综合
中国信息化
网络与通信
产品与应用
渠道与市场
渠道黄页
经销商的选择
东北专刊
华东专刊
华南专刊
西北专刊
西南专刊
创建数据仓库:要面向三条路线

王珊、谢佳明、陈红、刘中蔚、邵琦洪、张宁

  中国人民大学数据仓库与商务智能工程研究中心

  中国人民大学数据与知识工程研究所

  一个成功的数据仓库的创造和实施,不仅需要良好的数据模型和优化的实现技术,而且需要把众多相关的因素很好地进行集成和组织,形成一套有效的设计方法和实施规则。


  数据仓库创建的基本框架


  数据仓库提供了有效地存取和管理大量数据的理想环境,而数据仓库系统的建立是一个由数据驱动、以技术支撑并满足应用需求的不断增长和完善的开发过程。因此数据仓库的建立可以从数据、技术和应用三方面展开,其基本框架如图所示。

  基本框架的各部分描述如下:

  项目计划。项目计划是指定义创建数据仓库的项目目标和确定项目范围,包括对项目计划的评估和流程的调整。


  数据仓库建立的基本框架

  业务需求分析。业务需求分析是数据仓库中一个很重要的阶段,好的业务需求分析会使项目成功的机率大大增加。

  数据线。数据线的实施可以分为模型设计、物理设计、数据处理三个步骤,用以满足对数据的有效组织和管理。

  技术线。技术线的实施分为技术选择和产品选择两个步骤。如何采用合理有效的技术是实现一个好的数据仓库系统的基本条件。

  应用线。应用线的实施分为应用设计和应用开发两个步骤。数据仓库的建立最终是为应用服务的,所以需要对应用进行设计和开发,以更好地满足用户的需要。

  运行维护。数据仓库建成后就进入运行维护,在运行中要不断验证评价分析设计是否符合用户需求,产生出新的分析要求及时反馈回需求分析,进行系统设计的改进。

  数据路线。包括模型设计、物理设计、数据预处理。

  模型设计。需求分析已经确定了用户业务分析所需要的数据。模型设计阶段将确定数据仓库系统将来的蓝图。该阶段的主要任务是进行数据仓库的逻辑设计,包括选择合适的主题,确定事实表、相关的维、属性和粒度划分,设计正确的表结构和主键、外键关系等。模型设计主要包括四个基本步骤:确定合适的主题、划分粒度层次、设计维表和设计事实表。

  物理设计。物理设计的主要任务是定义支持模型设计必需的物理结构。其过程包括以下三个方面:1)确定物理存储结构;2)确定索引策略;3)确定存储分配。

  数据预处理。数据预处理是数据仓库设计工程中非常重要的过程,它由三个主要步骤组成:抽取(Extraction)、转换(Transformation)、加载(Load),简称ETL。抽取过程将会暴露源系统中数据的质量问题。由于数据的质量严重影响着数据仓库的可信程度,因此在数据预处理过程中,需要提高数据质量,让数据仓库使用真正有效的数据。目前有很多工具可以帮助用户完成数据抽取、转换和装载工作,但是还有相当一部分工作是要手工编程来完成的。

  技术路线。技术路线包括技术选择和产品选择两步。

  在数据仓库建立的过程中会遇到一些新的特定的问题,如管理大量数据的需求,如何对数据进行快速和方便的访问等。为解决这些问题人们采用了新的技术。技术体系选择必须从为这些技术建立全局的结构框架和视角出发,选择中需要同时考虑三个因素:商业需求、当前的技术环境、计划的策略技术方向。

  技术体系确定以后需要选择实现数据仓库应用的各种产品,包括硬件平台、ETL工具、OLAP服务器、数据展现工具等,并进行产品的安装和测试。现在市场上的数据仓库产品有很多,数据仓库厂商通常都提出了自己的一系列解决方案,限于篇幅,在这里不再展开,而主要着眼于数据仓库实现的一些关键技术,以便对数据仓库的建立有更深层的理解。

  应用路线。应用路线包括应用设计和应用开发两步。

  数据仓库的建立是为满足用户的不同查询需求服务的,用户的需求可能是只访问一些预定义的查询、生成报表等简单操作,也可能是自己定义复杂的查询,直接分析数据仓库中存放的各种数据。因此,需要设计合适的应用工具,为不同的用户提供友好的用户界面。

  应用设计和开发的一个有效办法是针对不同的用户需求,设计和实现标准的用户应用模板,提供给用户高效的接入方式。

  应用设计的任务是设计标准的用户应用模板。应用设计的过程一般包括:确定初始的模板集、设计模板的标准、设计详细模板、最后通过用户反馈进行改进。应用开发是通过应用设计说明书,按照标准的软件开发流程,实现模板的设计。应用开发的一般过程是选择实现的方法,然后进行模板的实现、测试和数据验证,最后是应用模板的维护。

  应用是数据仓库建立的最终目的,对于应用提出的要求,数据仓库建立过程中是必须加以充分考虑的。


  小 结


  总的来说,数据仓库的实施是为了建立一个良好的数据组织和管理环境,以满足决策支持的需要。数据仓库包含了数据、技术、应用三方面的要求,所以只有把良好的数据模型、合理的技术和准确的应用设计结合起来,形成一套有效的方法,才能建立起一个成功的数据仓库。

  数据仓库系统的设计是一个动态反馈和循环的过程,以上只完成了数据仓库建立的一个生命周期。在实际建立的过程中,一方面数据仓库的数据内容、结构、粒度和其他物理设计需要根据用户的反馈信息不断地调整完善;另一方面,应用环境发生重大变化或者新技术出现,都有可能导致用户的应用需求发生重大变化,使现有系统不能满足用户要求,需要重新设计系统,开始一个新的生命周期。因此,数据仓库的建立是运用一套有效的数据仓库建立方法不断反复循环的过程。




  链接

  关于数据仓库


  数据仓库的定义不少,著名的数据仓库专家W.H.Inmon认为:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、随时间变化(Time Variant)的数据集合,用于支持管理决策。

  在数据仓库的实现中,我们将要分析的数据分为维(Dimension)和度量(Measure),在用关系方式实现数据仓库时,可采用星型模式(Star)、雪片模式(Snowflake)、星系模式Galaxy、雪暴模式(Snowstorm)来建立多维模型(Multi-dimension Model)。为了满足查询速度的要求,数据仓库中的数据通常被组织成数据方体(Cube),并采用预计算Cube的方法将用户经常进行查询的数据预先计算出来。按照存储数据格式的不同, Cube的存储可分为两种类型:多维方式和关系方式。多维方式是指通过多维数组的方式在底层存储数据,关系方式是指按照关系表的方式存储Cube数据。

  数据仓库的主要功能和相关技术包括:数据建模;数据的清洗、转换和加载;数据存储管理和查询;增量维护。

  在数据仓库领域内的研究中,模型、数据的自动抽取转换等现在依然是工业界和学术界关注的几个主要问题,也会是数据仓库下一步研究发展的主要方向。


  数据挖掘


  数据挖掘(Data Mining)就是从大量不完全的实际应用数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。这些实际的应用数据往往是有“噪音”的。因此要根据不同的需求在挖掘之前进行清洗。

  数据挖掘的数据有两种来源,可以是从数据仓库中来的,也可以是直接从数据库中来的。所有的数据都需要再次进行选择,具体的选择方式与任务相关。挖掘的结果需要进行评价才能最终成为有用的信息,按照评价结果的不同,数据可能需要反馈到不同的阶段,重新进行分析计算。

  数据挖掘目前的功能主要有以下几种:概念描述、关联分析、分类和预测、聚类、孤立点的检测、趋势和演变分析。

  在进行挖掘之前首先要明确挖掘的任务,比如说是要进行分类、聚类或寻找关联规则等,然后根据这些任务来对所选择数据进行预处理,之后再选择具体的算法进行挖掘,最后要对挖掘出来的模式进行评价,削减其中重复的部分,将最后的结果展现出来。数据挖掘技术从一开始就是面向应用的,尤其在银行、电信、保险、交通、零售(如超级市场)等商业领域有着极其广泛的应用前景。

  在研究领域,目前大多数学者都在致力于各种挖掘算法和评价方法的研究,以努力提高各种算法的性能、扩展数据挖掘算法的应用领域。