
| 出版日期:2005-06-06 总期号:1417 本年期号:40 |
|
新一代数据仓库走向eXtreme
李军 随着国内用户对数据仓库应用技术的认知程度越来越高,数据仓库应用也会越来越广泛,专注于数据仓库技术和应用的NCR Teradata也一直致力于培育和开拓市场。5月24日在北京举办的2005年Teradata数据仓库峰会,已经是NCR Teradata在国内举办的第五届了,其中Teradata首席技术官宝立明专程赶来介绍了Teradata对新一代数据仓库的技术和应用的前景。 将功能推向极致 根据权威机构的调查显示,过去两年内产生的数据比之前4万年产生的数据还多,而且过去两年内的数据总量已经增长到原来的4倍。根据Gartner的预测,2012年组织管理的数据量将是今天的30倍。正是快速增长的数据量对数据的获取速度提出了更高的要求。宝立明笑着说:“现在人们对数据的需求已经超过了摩尔定律。” 以前企业进行信息管理时主要从内部数据源采集,聚焦于战略性决策支持能力。但是在竞争日益激烈的今天,用户同时需要战略和战术的决策支持能力。“这就需要新一代数据仓库来帮助。”宝立明介绍说,“新一代的数据仓库能够实时从企业内部和外部数据源中采集数据,现场决策者可以即时制定战术决策,我们称之为eXtreme数据仓库。” 对于为什么将新一代数据仓库命名为eXtreme数据仓库,宝立明从它的性能特点做出了如下解释:eXtreme数据仓库应该拥有回复速度以毫秒计量的极佳性能,永不停机的极高可用度,实时掌握交易事件的数据新鲜度,能发掘数据中所有的商业关系的高整合度,以及可供百万并发用户同时访问数个petabyte的数据的极端可扩展性。 突破现有应用瓶颈 数据爆炸性增长时要提高数据处理速度一般有两种处理方法:增强并行处理能力和加快单项任务的处理速度。宝立明自信地说:“我们在设计数据仓库时采用了独有的并行架构,这样能够满足数据的线性增长,无论是数据量还是客户量。”他还补充介绍说,Teradata具备非共享性(share nothing)及虚拟处理器基础的数据仓库架构,可轻易从SMP主机扩充到MPP的架构。只要简单地加上新硬件节点,Teradata的数据仓库会一如初始化时,自动地重新配置并平均分布每个节点所负担的数据量,以确保最佳的性能表现。 为了保证在大数据量下的检索速度,Teradata还采用了多重温度数据存储的技术。宝立明介绍说:“在所有数据仓库系统中,数据具有不同的温度。温度高的数据是最近、最常用的数据,同时拥有许多使用者及应用程序进行存取多种应用。随着需求降低,数据的温度也降低。” 由于互联网的不断发展,导致非结构化数据越来越多,数据仓库能否处理非结构化数据也成为用户关心的问题之一。宝立明回答说:“对怎么处理非结构化的数据,Teradata很早就做好了准备,主要是通过物件关联延伸(Object Relation Extension)技术来处理。”他还进一步强调了结构化数据处理的重点,“结构化数据的处理是目前的主流,这部分最大的商业价值就是分析,不管是运营还是战略方面。最重要的是,大部分的商业价值还是从结构化数据来的,将来会不会延伸到非结构化数据上去,那就要由应用和业务的发展来决定了。”
全球数据增长的趋势 |
|||||||||||||||||||||