
| 出版日期:2000-12-18 总期号:982 本年期号:94 |
|
并行处理 永不停顿
集群技术及联想万全平台级解决方案回顾与展望 集群技术 集群技术是使用特定的连接方式,将相对于超级计算机便宜许多的计算机设备结合起来,提供与超级计算机性能相当的并行处理技术。早在70年代就有人提出可以使用这种集群技术完成并行处理,但是由于受到当时网络交换技术的限制,集群系统在性能上与其它并行处理系统相距甚远,直到ATM技术、千兆位以太网技术逐渐成熟的今天,它才具备了与超级计算机相匹敌的能力。 集群系统的工作原理是:在一个集群中,有一个节点机充当集群管理者(Cluster Manager)的角色,它最先收到用户发来的请求,然后判断一下集群中哪个节点的负载最轻,就把这个请求发过去。集群中的所有节点都会在本地内存中开设缓冲区,这个缓冲区的作用类似NUMA系统中的桥接板。当一个节点需要使用其它节点内存中的数据时,这些数据会通过网络先放入本地缓冲区。集群系统的另一个优点是容错性好,例如在两个节点的集群中,如果一个节点失效了,另外一个节点可以通过检查缓冲区中的内容将失效节点的任务接管过去。目前最为流行的方式是用高速或超高速网络传输设备将几台服务器相连,实现并行处理,屏蔽单点失效。目前对集群技术需求最迫切、发展最快的领域主要有:www应用、数据库应用等商业计算领域。集群系统可以通过使用纯硬件的方式或使用软硬件结合的方式来搭建。 随着电子信息时代的来临,人们把越来越多的工作交给计算机去完成。因特网为人类展示出一个更为宽广的分布式计算模式的天地,随着个人计算机性能的增强、存储设备容量的增加,似乎数据更多地分布在各个微机中。但是对于大型企业及网络信息提供商来说,他们无限增长的数据必须集中存储和处理,因此企业级的运算对计算机的处理能力提出了更高的要求,计算机系统供应商必须不断完善、改进现有的计算技术,使它们越来越强大。处理器的主频仍然按照摩尔定律不断更新,也许从制造工艺、设计方法上的改进可以使CPU主频保持现在的增长速度。然而,除了提高单个CPU的主频、发展多个CPU并行处理技术外,构成集群系统能够进一步提高计算机处理能力和系统整体的稳定性和可靠性。 一、联想高性能服务器集群系统解决方案 联想万全于去年9月开发出针对重负载商业运算的万全NS10000数据库集群系统,它基于4节点的集群,共16个CPU,内存最大支持32GB,最多可升级为32节点。各节点采用联想万全4500r服务器,支持4路Pentium Ⅱ/ Pentium Ⅲ Xeon CPU并行处理。这套系统已成功地应用于联想Call Center(呼叫中心),作为数据库服务器,承担起提供260万次咨询服务、15万人次营销系统的信息服务能力。运营以来,该系统以稳定的性能,高速的数据交换能力,有效集成了业务流程,增加了服务的有效性,维护了联想与客户的良性关系,保证了业务的不断发展。 今年8月,联想对万全NS10000进行了升级,同样是基于4节点的集群系统,最多可升级为32节点,但各节点是联想万全4600r服务器,采用4路Pentium Ⅲ Xeon CPU并行处理。万全NS20000也于今年8月正式推出,它提供了比万全NS10000更强的数据处理能力,也是基于4节点的集群,共32个CPU,内存最大支持32GB,最多可升级为64节点,各节点采用联想万全8000r八路服务器。这两款集群产品引入了Vi(Visual Interface)技术,这是一种用于服务器和服务器之间的通讯技术,两个Vi结构通讯卡之间可以直连,不需要交换机,性能好且价格便宜,可以消除系统中节点之间通讯的瓶颈。下面着重介绍一下万全这两款集群系统解决方案是如何实现并行处理、永不停顿的。 ◆并行处理 在联想NS10000和NS20000中,节点间通讯没有使用以太网协议,数据从物理层解析到应用层时跳过了TCP/IP层,减少了数据包解析过程中对CPU的中断调用。如果采用传统以太网技术传送一条数据需要执行10,000条CPU指令的话,采用Vi技术仅需要50条。万全NS10000充分利用了Oracle数据库管理软件中的OPS(Oracle Parallel Server)并行数据库管理软件,不需要附加其它的集群管理软件即可构成并行数据库集群系统。例如:在查询一个大型企业的某项产品生产、销售资料时,NS10000可以将这一操作分解为扫描工厂生产表和产品销售表、对不同的表进行连接、对连接结果排序、对结果分组以及最终生成一张直观简洁的图表等多个子任务;集群中的管理节点可以将这些子任务分配给不同节点。有的子任务可以同时进行(可以将其称为水平并行),也有的子任务需要另一个子任务的结果作为输入(垂直并行),后一个子任务通常等待前一个子任务产生一定量的输出后(不必等待前一个子任务执行完毕),即可在另一个节点上开始执行。这种垂直并行和水平并行结合的处理方式,可以大大提高决策支持和复杂在线处理、在线分析数据库应用系统的运算效率。 ◆永不停顿 联想万全NS10000、NS20000高性能服务器集群系统均大量采用冗余设备,如:多台服务器、多台UPS、磁盘冗余(RAID),在存储设备中采用两套独立的CPU/内存子系统,甚至配置了两套为磁盘柜内存缓冲供电的电源系统,屏蔽了单点失效的危险性,使整个系统可靠性达到99.99%以上,全年宕机时间不超过5分钟。它瞄准重负载的数据库应用市场,定位于大型数据库应用领域,包括数据仓库应用、联机事务处理、决策支持等,为高性能、高可靠性需求的用户提供一个解决方案。万全NS20000还实现了当硬件设备发生故障时,任务节点间的平滑切换,即使其中有一台崩溃,需要重新安装时,也不会影响其他正常工作的节点机,只要修复故障的节点机,即可加入到集群中。 万全NS10000、NS20000具有很好的性能价格比,用户投入相当于传统小型机四分之一或者一半的价格,即可得到与传统小型机相当的性能。 二、联想万全IA64平台级解决方案展望 从近几年并行计算技术发展的趋势看,各个国际厂商对集群系统的重视程度都有增无减,被Intel寄予厚望的IA64 CPU可以支持16路以上的SMP系统;IBM计划在年内开发出支持256个CPU的SMP系统;Sun也雄心勃勃地加入了开发256个CPU系统的行列。联想作为在中国最早提供基于IA架构的国内服务器厂商,针对IA64体系结构的出现,将于明年推出面向中国市场的下一代基于IA64的高性能服务器集群系统的解决方案。这一解决方案将把基于OPS数据库技术的万全NS10000、NS20000高性能服务器集群系统解决方案平滑移植到基于安腾处理器的IA64硬件平台上,支持Linux操作系统,并与广大应用软件开发商(ISV)合作,在这套系统上进行应用软件的测试和开发,并帮助他们实现应用软件的成功移植。 联想万全即将推出的这套高性能服务器集群系统,除具有万全NS10000、NS20000所提供的1.25Gb/s的服务器之间高速的数据交换、良好的负载均衡特性和单节点失效后其它节点自动接管等特性外,采用IA64处理器所带来的大内存支持、数据保护和优化的数据存储方式、增强的设备检测结构、内存集成管理技术和更快的运行速度,将为联想万全的新一代高性能服务器集群系统提供比以往NS10000、NS20000更强的处理能力。联想万全的IA64平台级解决方案提供对Linux的支持,使Linux领域用户也可以享受到高性能服务器集群系统解决方案带来的系统稳定性和高效性。 对于国内的IT厂商而言,结合自身的优势跟进高端计算技术的发展是一个重要课题,联想电脑公司也一直致力于在这个领域中的研究。在这些技术中,集群技术易于实现,便于用户管理,用较低廉的价格为用户提供与传统小型机相当的性能。而且,除了实现数据的并行处理,还能够实现节点失效接管等功能,提高了系统的可用性。因此,进一步发展集群技术可以缩短我们与国际厂商之间的差距,提高高端产品的核心竞争力。 万全NS10000集群技术解决方案通过了Oracle公司的Oracle 8i OPS(Oracle 并行服务器)两节点认证。万全NS20000集群技术解决方案通过了Oracle公司的Oracle 8i OPS四节点在Windows 2000 advanced Server(中文版)上的认证,使联想万全成为目前唯一通过此项认证的国内服务器厂商,也是全球第一批在Windows2000平台上通过OPS认证的厂商之一。 |
|||||||||||||||||