
| 出版日期:2004-08-09 总期号:622 本年期号:29 |
|
数据仓库撑起业务的天
■ 比超 美国著名的信息工程学家W.H.Inmon曾说,数据仓库是一个环境,而不是一件产品。对于环境的建设和完善,自然不是一朝一夕的事。当企业越来越需要把数据信息与行动脚步紧密挂钩的时候,人们开始期待数据仓库技术。但要真正在数据仓库的天空下赏心悦目地开展业务,需求、技术必须把握清楚。 亏损后的抉择 1992年成为英国巴克利银行运营300年来第一个财政亏损年。由于英国的经济低迷,到期的大量信贷遭到损失。巴克利的管理者急于寻找一种改变这种境遇的方法,希望能够更准确地预测每一笔贷款的违约风险,并且使其资产组合尽可能多样化,以最大程度地减少市场震荡所带来的影响。 为了实现这样的目标,巴克利的管理人员认为,需要收集尽可能多的客户信息,通过分析贷款客户过去的历史数据来预测其未来的行为,以更准确地了解其偿还贷款的可能性,并及早采取相应的措施。 1993年4月,在考察了路透社、英国航空公司等企业使用数据仓库技术的情况后,巴克利银行决定基于NCR Teradata来建立其信息仓库平台BIW (Barclays Information Warehouse),初期应用主要是防范和降低信贷风险。 四阶段历程 巴克利银行的数据仓库系统发展可以分为以下四个阶段。 第一阶段:建立信息仓库(BIW)(1993~1999年) 巴克利充分认识到数据是银行的重要财富,因此尽可能多地保存各种历史数据并加载到信息仓库中。巴克利的BIW系统由24个NCR 5250结点(每个结点是一台传统的对称多处理SMP服务器)组成的海量并行处理MPP(Massive Parallel Process)服务器,形成5.6TB的数据库空间(经过镜像处理、操作系统格式化以后的数据存储空间,不包含数据库工作的临时缓冲空间)。 在BIW中数据加载与更新的状况是,每天加载所有交易数据(金融与非金融),这些交易数据约占总数据量的20%;部分非交易类数据每天进行加载(约占总数据量的5%);部分非交易类数据每周进行加载(约占总数据量的5%);数据抽取采用第三方工具生成的Cobol程序在大机上完成;允许业务用户直接加载所需要的数据;数据加载的同时也允许用户访问数据仓库,数据加载主要在晚上进行,约85%到90%的动态分析均在正常营业时间(08:00~18:00)进行。 经过近7年的发展,到1999年时,BIW已经基本包含了巴克利所有业务处理系统的数据。BIW的作用主要体现在几个方面中: ◆ 实现了各业务部门共享一个一致的信息视图,为银行高层提供报表等各种准确信息,避免了由于数据源不一致而产生的各种偏差; ◆ 提供复杂数据分析与数据挖掘的基础平台; ◆ 为高级业务分析师提供强大的动态分析手段,可以随时满足各级管理人员的各种分析需求,业务分析师可以通过BI工具直接访问数据仓库中的信息; ◆ 为各种专门用途的数据集市提供数据。 第二阶段:建立企业数据仓库 (EDW)(1999年)
图1 巴克利银行EDW与BIW集成结构图 到1999年末,巴克利银行认为在数据仓库中需要处理一些OLTP类型的负载,并且数据获取需要近实时完成。巴克利银行的IT部门对Teradata这方面的能力缺少信心,另外他们也希望尝试一种新的数据仓库平台。因此巴克利银行在IBM的OS/390上实施了一个企业数据仓库EDW(Enterprise Data Warehouse),总的数据库可用空间为4TB。 该EDW收集了巴克利银行所有的数据源,并向基于NCR Teradata的信息仓库BIW提供数据。通过此EDW,实现了整个巴克利银行产品标识符的统一,以及一致的客户信息文件。 在此EDW中,由于各种各样的原因,不允许业务人员进行常规或者动态的分析,因此该EDW主要是作为BIW的单一数据来源。 第三阶段:建立数据仓库服务系统 (DWS)(2000~2002年) 在1999年基于IBM OS/390上实施EDW后,巴克利银行把EDW与原来的信息仓库BIW集成在一起,形成数据仓库服务系统DWS(Data Warehouse System)。其结构如图1所示。 DWS的主要特点首先是把银行内原来的EDW与BIW两个小组整合成一个小组,可以相互交流经验,更好地为业务部门服务;其次,随着业务分析对数据实时性的要求增加,大部分数据都以每日加载的方式从EDW中加载到BIW;第三,所有新产生的详细数据都首先进入EDW,然后再加载到BIW;第四,所有针对业务系统的数据抽取都由EDW完成、所有动态数据分析、常规分析以及数据集市的生成也都由BIW完成。 第四阶段:统一数据平台 (2003~2008年)
图2 巴克利银行DWS整合结构图 从2000年开始,巴克利数据仓库服务系统DWS由基于IBM OS/390的EDW和基于Teradata的BIW组成。经过三年的运行,巴克利发现这种混合平台的方式存在许多问题。主要体现在以下三个方面: 冗余: ◆ 两个平台不可避免地导致大量冗余; ◆ 开发人力上的冗余(通过EDW进行数据获取,用户信息访问则通过BIW); ◆ 数据冗余(BIW中复制了EDW中的数据); ◆ 支持与维护人力上的冗余(两个小组,并且所需的技能还不一样); ◆ 第三方产品投资上的冗余(硬件、软件以及维护)。 成本: ◆ 大量冗余导致成本的增加 ◆ 数据质量不容易保证 对市场的响应速度: ◆ EDW中的数据不能完全满足所有的业务需求; ◆ 针对一些业务需求,有时不能完全确定到底应由DWS中的哪一部分(EDW或者BIW)来实现; 基于对上述问题的综合考虑,巴克利银行决定把DWS整合到一个单一的平台上。经过大量的综合论证,以及对大型数据仓库案例的实地考察,巴克利银行最终决定把DWS整合到NCR Teradata数据仓库引擎上,整合后DWS的逻辑结构如图2所示。 巴克利银行数据仓库服务系统DWS未来五年的主要目标为: 移植(Migration):把巴克利银行内部相关的数据仓库全部移植到Teradata上; 整合(Consolidation):把各个业务部门产生的独立数据集市整合到集成的Teradata平台,形成功能性的逻辑数据集市(如分别针对市场行销的、风险管理的、银行卡服务的逻辑数据集市); 集成(Integration):把这些数据集市集成到一个单一的数据库中,以形成一致的信息视图。 用户体验 巴克利银行的数据仓库系统不只是一个单纯的报表系统,它允许业务用户直接进行动态的分析和信息访问,以真正起到决策支持的作用。 巴克利银行的数据仓库系统不只是一个单纯的报表系统,它允许业务用户直接进行动态的分析和信息访问,以真正起到决策支持的作用。目前约有1100名业务人员可以直接访问数据仓库,任一时刻的并发连接池约为60至100(每个连接池可能对应多个用户)。 目前向数据仓库提供数据的业务系统约100个,基本涵盖了巴克利银行现有的各个业务系统。数据仓库中的数据实体约为24000个,每月刷新的数据量约为1300GB,每月的使用统计: ◆ 业务查询与分析任务:554,800 (平均每天18,500个业务查询任务) ◆ 数据插入任务:490,200 ◆ 数据更新任务:74,700 ◆ 数据删除任务:22,200 从业务功能角度来看,巴克利银行数据仓库的业务应用可以概括为以下两个主要方面。 基本功能:单一的客户信息视图;整合来自多个操作数据源的数据;保存历史信息,可以对不同时间段的数据进行比较;形成一致的信息视图,可以真实地了解每个客户、每个客户分组、每个客户经理、每种产品、每个机构等的特性和利润贡献;跟踪并分析每个市场细分;数据挖掘:使业务人员对他们客户的行为了解更为透彻。 高级功能:客户管理、产品管理、销售管理、市场细分、信用风险分析。 巴克利银行在过去三年中,贷款年增长约20%,而贷款坏帐核销则从0.7%下降为0.15%。通过实施有针对性的事件行销,成功率达24%。2002年比2001年增加股东价值2700万英镑。 巴克利银行首席信息官David Weymouth表示:将现有的、分散的数据仓库平台集中起来帮助我们大幅降低运营成本。此外,透过业务运营和客户数据的统一视图,银行各业务部门将充分享有信息增值带来的优势,进而协助企业做出更全面、更迅速的决策。(巴克利银行金融服务部) 厂商体会 巴克利银行统一到数据平台上,已成为欧洲很多金融机构普通作法。数据仓库的实现由需求驱动。结合目前自身系统和应用的实现情况,建设和实施数据仓库,才能少走弯路。 巴克利银行是一个具有300多年历史的老银行,在发展过程当中购并了一些银行,使得其业务处理系统种类较多且不规范,历史包袱比较重。 从这方面来看,国内商业银行具有明显的优势。以中国工商银行为例,工行目前已经形成两个大的数据中心,业务系统统一而且规范,这对尽快开始数据仓库系统创造了有利的基础条件。 巴克利银行使用数据仓库已经有十年的时间,其开始实施时的基础条件比工商银行差得多。 在长期的数据仓库实际中,巴克利银行统一了其数据仓库模型、数据仓库平台,数据仓库虽然也担负着银行大部分的常规报表工作,但它的作用远不局限于报表。 最重要的作用是它直接开放给业务部门使用,业务部门可以根据变化的市场环境直接从数据仓库进行各种业务数据的动态分析,从而发挥最大的业务价值。根据巴克利银行IT部门的统计,业务部门基于数据仓库系统所作的查询与分析平均每天达到18,500个。 数据仓库的实现由需求驱动。结合目前自身系统和应用的实现情况,建设和实施数据仓库,才能少走弯路。 数据仓库的实施与完善是一个长远的过程。巴克利银行在10年实施数据仓库的基础上,又制定了未来5年的发展计划。 与其临渊羡鱼,不如退而结网。我国各大商业银行应该尽快开始规划并实施企业级数据仓库,以应对中国加入WTO后所面临的各种挑战。 国内银行与巴克利这类的国际先进银行相比,虽然在盈利能力、风险管理水平等方面存在着一些差距,但国内银行普遍的特点是数据量巨大、用户数众多,这使得国内银行在选择数据仓库平台时,更应进行全面的评估和考量,特别需要考虑系统的线性扩展能力,系统的并行处理能力和系统的简单管理。 当然,除了这些因素外,国内银行应该尽量多考察全球最大的几个数据仓库系统,确保供应厂商具有实施与本行同等或类似规模数据仓库系统的成功经验,以最大程度地降低实施风险,保护长期投资。(NCR Teradata数据仓库事业部 王闯舟) 应用借鉴 为什么在银行应用数据仓库 目前,中国银行业呈现出几大趋势: 一是数据走向集中化; 二是业务综合化; 三是管理扁平化; 四是决策科学化。这些特点促使数据仓库技术发挥着极其重要的作用,同时,也是银行业能否决胜未来的“利器”。 由于数据量大,数据来源多样化,在银行构建信息管理系统时,不可避免地会遇上如何管理这些浩如烟海的数据以及如何从中提取有用的信息的问题。以前,银行会将历史数据从业务数据库中转移到备份系统中,导致无法深入分析数据,难以做出有竞争性的决策。 现在,银行通过逐步建立企业级数据仓库,可以对全行业务数据进行集中存储和统一管理,科学合理地对信息进行详细分类,及时准确收集信息和分析信息,确保管理层随时掌握银行的经营风险、运营情况和经营目标。 如何看待数据仓库应用以及优势 数据仓库在银行的应用范围包括存款分析、贷款分析、客户市场分析、相关金融业分析决策(证券、外汇买卖)、风险预测、效益分析等。在建立银行数据仓库之前,首先需要了解当前银行数据中哪些数据是重要的,它们的组成结构怎样。 银行的数据模型是一个理性化的分析工具,它不是从交易处理的角度来看银行可以提供什么产品,也不是从会计角度来看信息的类型和组合。它是从银行的工作流程角度出发,是从银行客户的获取过程、渠道优化和优质客户保留的周期出发来分析银行的功能和合理化,它的价值在于银行可以更好地研发金融产品和做好客户服务。 数据仓库的最大优点在于它能把企业网络中不同信息岛上的商业数据集中到一起,存储在一个单一的集成的数据库中,并提供各种手段对数据进行统计、分析,并且允许企业的各个部门共享数据,为企业更快、更好地做出商业决策提供更加准确、完整的信息。 数据仓库可以在竞争力、客户、风险、利润、组织机构等几个方面对银行产生影响,例如:银行可以根据数据仓库中的信息做出决策,响应日益严峻的竞争,不断使用新的技术,使业务和产品的革新进一步全球化。 银行可以利用数据仓库支持和把握以下业务:传统业务的发展趋势;产品之间的差距和机会;银行业务行为和绩效;银行的经营目标;交叉销售的机会;市场细分;交易渠道使用情况;竞争对手的产品;合理的价格。 一旦数据仓库中的信息按照上述方式进行组织,银行就可以通过以下机会获得业务优势:市场促销 、产品客户化、产品包装、银行业务评估、绩效跟踪、交叉销售、风险管理、渠道使用情况、设定优惠价格、竞争对手联盟、客户份额预估、费用预先确定 。 如何在银行应用数据仓库 在银行信息系统构建时,由于历史情况和现实需求的不同,存在两种途径: 1.建设新系统 由于目前国内银行对内部运营的监管,缺乏很好的数据搜集机制,因此可以在构建管理信息系统时,分数据收集录入和数据汇总分析两部分来考虑。这样的系统中由于不需考虑大量历史数据的处理问题,同时考虑到搜集过程中可能存在多个数据来源,因此可以在系统建设的同时构建数据仓库,将搜集来的各种数据通过数据抽取整合到数据仓库中。 2.完善原有系统 对于已经存在OLTP系统,其中沉淀了大量历史数据,则可以先在原有系统上建立逻辑数据仓库,即使用数据分析的表现工具,在关系模型上构建一个虚拟的多维模型。当系统需求稳定后,再建立物理数据仓库,这样既节省投资,又缩短开发工期。 数据仓库和业务系统是紧密相关的,组成一个闭环曲线。在实施数据仓库项目过程中,要和业务系统的相关技术结合,同时数据仓库系统的分析数据也应返回到业务系统,对决策的实施起到相关作用。 在银行数据仓库应用中,完成了报表的生成和日常业务的分析,并不能给银行带来真正的效益,也远远没有发挥出数据仓库的应用价值。在数据仓库建设中,不要把其视为一劳永逸的项目。 数据仓库的建设不一定马上就能得到很大的效果,不能急功近利。如果在初始阶段就试图包罗万象,势必会造成整个系统的进度和质量难以控制。应该从急需的业务主题入手,逐步扩大信息的范围,这样才能准确把握需求,减少投资和减少风险,缩短阶段性的开发周期。(美国商会信息产业委员会主席 吴辅世) 用户背景 巴克利集团(Barclays)从事银行金融服务已经有超过300年的历史,目前是英国第二大银行,员工约75000人,在全球70多个国家设有分支机构,除向全球客户提供对零售和对公的银行服务外,还提供投资和资产管理的专家服务。在英国,巴克立设有约2000个分支机构,其个人客户超过1000万,信用卡发卡量930万张,是欧洲最大的信用卡发卡行。 巴克立的对公客户包括50万小型公司客户(在这一市场占绝大多数)、约三分之一的中型公司客户、以及约400个大型公司客户。总资产超过1650亿英镑。 |
|||||||||||||||||||||||