ccidnet????

出版日期:2005-06-10 总期号:220 本年期号:11

本期导读
新闻评析
资  本
封面故事
企业专栏
系统平台
行业应用
管  理
应 用
产品主题
联合数据质量

■ Tho Nguyen Tony Fisher

  公司生存还是死亡取决于其从数据中获得的决策能力,这来自于数据仓库、先进的分析和商业智能。今天,公司需要将各种平台、不同格式、甚至不同地点的数据整合到数据仓库中并保证其数据质量,已达到商务智能的迅速回报。但是,大多数组织还没有将数据质量作为一种前提性的、系统的、持续的企业活动,根据TDWI(The Data Warehousing Institute)近期对数据质量的调查,半数的公司都没有管理数据质量的计划。

  干净数据的价值何在?

  很多人相信将组织的数据资产发挥最大作用说起来比做起来容易。这也就是为什么数据质量经常被忽视的原因-每个人都知道它是个问题,但都拒绝承认它会对整个组织造成影响,实际上它已经造成了。数据质量对业务意味着什么呢?它可能就是简单地保证企业获得想要的零售目录,也可能是保证企业不想要为每一个不同的地方保留一份额外的拷贝,否则企业的名字和地址有可能被拼错。数据质量的缺失可能意味着客户流失的噩梦。

  如果企业实施过电子商务和CRM应用,企业就会了解数据质量是多么重要。但还有哪些领域需要数据质量?多长时间数据质量会被检查?谁需要高质量的数据?更重要的,谁可以通过将数据仓库和数据质量结合来达到商务智能?

  任何管理和收集非标准化的、不一致的、或潜在冗余数据的组织都需要进行数据质量管理,其应用行业包括:金融服务(银行、保险、投资)、制造业、医疗健康、政府,等等。

  质量低劣的信息对任何组织都是有害的。有效的数据仓库和数据挖掘的一个关键基础就是数据质量。如果数据缺乏足够的质量,那么查询数据仓库和根据这些信息进行决策的人将无法相信其结果。

  这些数据只是些原料,还不一定能用。或许,一点点拼写错误造成的重复客户使市场活动预算大大超支,因此要对数据进行合并。也许花了大量时间重组和修正地址数据,但当每月获得新的数据时,这一切又要重来一遍。

  大多数组织都有分离的销售、支持和市场团队,组织很难同时管理全部的客户流程和数据基础结构。当存在的系统大多数是相互孤立的情况下,解决CRM的难题要集成所有的数据,而这几乎是不可能的。多数系统都假设其数据是干净的,可以给其它系统使用,而实际情况,远非如此!

  如何判定数据质量?

  企业有各种各样的原因依赖数据-从识别客户机会到保证制造流程的平滑,而如果数据质量不好,则不可能进行高效的业务决策。按照Gartner的高级研究员Ted Friedman的调查,财富榜前1000名企业因内勤工作操作效率花费或损失的钱将超过其数据仓库或CRM的投资。

  数据质量控制是一个很严重的问题。目前,业界有很多软件解决方案可以帮助企业评估和解决数据质量问题。一些提供商甚至提供免费下载的、适合几乎所有平台的数据分析工具,来帮助解决数据质量问题。然而,为了能全面评估这些解决方案,应该全面理解基本的数据质量问题的类型。

  大多数公司犯的错误是将数据质量视为“原因—影响”事件。经常发生的情况是,只有当引起了问题后,数据质量问题才引起重视。对于那些成功运用商业智能的公司,数据质量必须被视为优先级最高。企业是生存还是消亡,取决于其信息是否准确和一致。

  差的数据可能在不同程度上影响企业,从引起一点窘困到产生数百万美元损失的错误。各种各样的原因可能产生差的数据:数据录入错误,从互联网获得的错误数据,购买的或从外部数据源获得的错误数据,或者在合并好的数据和过时数据时但没有能力区分其差异。

  当企业决定面对数据质量问题时最具挑战的一个方面是确定数据问题到底有多差?是否有一个简单方法来完成数据审计,或测试分布在各种数据库和应用中的数据?有一些数据质量的提供商提供了工具来专门处理这个问题:分析系统中数据的完整性,并给出统计报告。没有比通过第一手资料了解组织中错误数据的百分比,来确定需要哪种数据质量解决方案更好的方法了。

  企业花费了大量金钱,T预算中相当大的部分来建设复杂的数据库和数据仓库。在探索可用的商务智能过程中,各种应用和系统被部署在企业各方面,并且创建了各种信息收集流程。然而,多数企业忽略最重要的是数据这个事实。因此,企业怎样才能解决数据质量问题并最终获得成功的商务智能呢?

  数据仓库可以做什么?

  数据仓库是使大量数据产生意义的应用的基础,这些应用有:CRM、门户、ERP、知识管理,而数据仓库需要处理以下问题:

  ·业务系统;

  ·ETL(抽取/转换/加载)或集成转换程序;

  ·企业级数据仓库;

  ·ODS (Operational Data Store);

  · 数据集市;

  ·决策支持系统(DSS);

  ·数据展现/数据挖掘应用。

  一个有效的数据质量工具和方法论应该覆盖以下数据质量问题:

  ·在应用和数据录入期的数据质量;

  ·在应用集成期间的数据质量 (例如,集成到数据仓库);

  ·对数据源的灵活的数据质量。

  数据仓库从运行于企业各方面的独立系统获得复杂的数据。数据仓库在战略上是势在必行的,它可以使企业对变化的市场快速反应。由于从数据仓库获得数据的商务智能应用持续增长,其数据变得更为重要。一个能提供准确、一致、标准数据的数据仓库可以使企业到达提高收入和优化成本的双重目标,这将成为企业的核心竞争力。

  数据仓库之父Bill Inmon说,ETL的目标是将集成的干净的数据加载到数据仓库中,数据质量是其中关键一环。通过集成数据仓库和数据质量,ETL 可以提供在企业级管理数据质量能力,为数据管理员/数据分析员和IT/数据仓库专家解决问题。一个实际的数据质量解决方案必须覆盖全部过程:IT/数据仓库专家需要在ETL环境中利用数据质量工具,数据管理员/数据分析员需要数据质量工具来简化复杂的业务规则,包括算法和方法论去确定数据中的错误。

  数据如何变迁?

  这是个数十亿美元的问题。

  为什么企业收集的数据质量如此差?这有各种各样的原因:从数据本身的不明确,依赖数据录入的毫无差错,而一个简单的事实是企业有如此多的不同的数据源来收集信息。

  TDWI估计,数据质量问题造成美国企业每年的花费超过6000亿美元。而管理层对数据质量问题的忽视将会造成企业缓慢失血,甚至死亡。这包括不必要的打印、邮寄和人工费用,而更严重的是,它会缓慢但逐渐减少客户和供应商对企业的信任,而且无法基于正确的信息产生合理的决策。

  数据的问题是随着时间的推移,其质量迅速退化。专家说在客户数据中大约每个月有2%的记录变得过时。而且,数据录入错误、系统移植、源系统的变化、以及其他一些问题,使得产生的错误车载斗量。当组织分为不同的部门时,数据元素也会发生变化以适应本地业务的需要。对这一群人有价值的数据可能对那一群人毫无意义。

  那么,组织如何达到高质量的数据呢?一种办法是什么也不做,等客户自己发现错误,而且他们确实能发现,但这样做的问题是损害客户对数据仓库的信心。第二种办法是有经验的专人负责数据质量,当然,这是很耗时而且昂贵的方法,而且其本身也会产生错误。最高效的方法是采用尽可能自动的方法来提高数据质量。

  幸运的是,CRM、商务智能、供应链管理的创新观念正在令领导层对数据质量引起重视,很多人了解到数据质量问题会破坏哪怕是最好的策略,并将错误暴露给范围更广的,更关键的外部客户。目前,企业每年收集的信息增长了十倍,互联网是主要的信息源。随着数据越来越多,包括电子商务、直销、呼叫中心、现有系统等多渠道实体也开始应用,而坏数据(如不一致、不完整、重复或冗余数据)对企业的影响也日益严重,其窘境很清楚:企业怎样才能保证从每个应用、每个系统、每个数据库获得的协同数据发挥最大作用?

  企业系统中有大量的数据要放入数据仓库,而且每天还有成千上万的数据在系统间流动,还有企业和供应商、合作伙伴的系统间也有数据流动,其方式可能是数据接口系统,也可能是非结构的Web方式。数据和系统的复杂性增长很容易造成数据模糊。

  数据质量很重要,而数据仓库中的数据质量尤其重要,因为数据仓库会为其它系统提供数据,会有传播效应。据估计,数据仓库中约有超过20%的数据有错误、冗余,或其它不可用因素,这对结果有严重影响。

  数据进入系统时有多种途径产生错误,修正这些错误需要将数据仓库和数据质量过程融入应用环境中。部分数据质量过程是以业务规则的形式独立于应用的业务规则资料库中,并被多个应用共享。定义业务规则和数据标准可以确保正确的编码、姓名和地址拼写格式、计算公式等。

  这些规则都是元数据,要保存在业务规则库或元数据资料库中。入口错误并不是唯一产生错误的地方,另一个主要的错误发生在数据集成的过程中。想象一下要集成到数据仓库中的两个的应用,作为独立的应用,其中的数据没有问题,但是其应用间却有很多差别,这些差别必须被识别出来,使进入数据仓库的数据有唯一的表示。

  数据质量从何抓起?

  在数据集成过程中有很多机会提高数据质量。最符合逻辑的是在数据源一方,数据源有各种格式、在不同的平台上、分布的范围经常也很广。有些数据源比较完整,而有些则有缺失,甚至是错误的值。通过修正性维护在数据源端避免数据质量问题,将使数据仓库更加有效。

  从操作环境到数据仓库的数据迁移过程是很好的解决数据质量问题的机会。为了解决从多数据源来的数据的完整性,首先要解决一下数据源应用的数据质量问题,然后再确定数据融合时的数据兼容性的问题。数据质量工具可以提供很强壮的匹配逻辑来帮助从多数据源的数据融合。

  组织中至少有三个角色要关注数据质量:业务分析员、数据仓库管理员、数据质量员。质量的开始点是业务分析员,如果系统规格没有被很好定义,则应用不可能有好的数据质量。如果业务分析员说的“收入”,而实际指“到账收入”,这就存在质量问题。如果业务分析员说“交易量”但没有指明是本地货币还是转换为欧元,这也有质量问题。

  业务分析员会首先联想到数据入口错误,他们了解业务,并且会很严格地定义业务规则以保证数据质量,这些业务规则包括从企业规范标准到计算公式的一切。数据质量工具提供了保存和执行这些业务规则的手段。

  数据仓库管理员关注于集成中的错误,他负责将数据从操作型环境中导入数据仓库。虽然数据是从不同系统集成的,但他要保证进入数据仓库的数据在格式、结构和定义上是一致的。

  第三个重要角色是数据质量员,他负责日常流程维护,要确保每日的工作成功执行,正确的数据源被抽取,用户查询到正确的数据表,等等。数据仓库管理员关心数据仓库的规范和数据加载,而数据质量员关心的是每天加载程序的实际执行和数据仓库的使用。

  何为关键问题?

  高质量数据并非不可达到的目标,关键是要有将数据作为企业的战略资源的意识。

  可以开发一套程序来管理数据质量,并获得高层的支持,雇用或者培训有经验的数据质量专家来检查和执行程序,或者把这类工作外包。而且必须要持续地管理数据质量,并随着业务和系统的变化调整监控和清理流程。

  商业的数据质量工具和服务可以将审计、清理和监控数据自动化,这种投资是很值得的。多数商业工具除了审计数据和清理姓名、地址数据外,还开始支持公司定义的业务规则等能力。

  数据是一种重要的资源。在当今的商业环境中,那些进行适当投资在数据资源上的公司比那些忽视数据质量、浪费数据资源的公司有更大的成功机会。

  数据仓库协会(The Data Warehouse Institute)估计,每年美国的企业因坏的客户数据造成6110亿美元的损失,包括邮寄、打印和人工费用,坏质量数据造成的花费实际上更高。因为错误的地址而遗失客户,或者当客户打电话、逛商店、上网时没有识别出来,造成客户忠诚度的降低甚至客户流失,而客户流失还意味着销售成本的损失、丧失推荐机会、以及未来收入。

  关键的业务决策、资源分配、价格变动、市场活动、日常操作都离不开关键企业数据。一家企业是成功还是失败取决于企业级数据仓库中信息质量。然而,数据质量却经常被忽略,他们认为实施数据质量很费钱,而且花费大量人力和时间。

  数据仓库可以从多数据源获得数据,并清洗和重组,再通过分析,转化为商务智能,而商务智能有助于解决特定的业务问题,进而反映在企业的资产负债上。


  St Paul Travelers保险公司Sullivan McConnell认为,缺乏高质量数据是数据仓库建设的最大挑战。

  

  链 接

  ETL

  ETL,Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程。

  ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去,从而保证所生成数据的质量。