
| 出版日期:2003-12-22 总期号:1277 本年期号:96 |
|
容错:保证关键业务“万无一失”
和鹏 您是否有过这样的经历:心急火燎地满大街找取款机,好容易找到了,却发现屏幕上显示着“系统维护中”的字样?或者到银行准备缴纳话费,得到的答复却是“因系统故障,今天不能交费”? 虽然一般情况下,信息系统的故障不会给企业运作带来什么影响,但在某些关键时刻,系统的故障就会带来不可挽回的影响和损失。本文从分析行业需求出发,较为全面地介绍了当前容错技术的特征和典型应用。 行业需求催生容错 行业业务特征决定了计算机系统环境的需求,也决定了服务器的技术选型要求。我们可以看看各主要行业因各自行业特点而对服务器的具体需求。 大型企业:业务内容覆盖面广,网络计算首先要满足企业内部管理的需要,建立网络平台,对大量的信息进行传递、处理和分析,其次要建立对外信息发布平台。由于分布广,数据量大,他们注重高可用性、可管理性、高可靠性和性能价格比。 电信行业:业务管理系统采用以本地网为营业、客户服务、账务中心,省中心集中管理的集中分布式处理模式,从技术方面讲,采用全省集中分布式处理模式的最大好处是有利于全省数据的集成、共享和管理,因此该行业重点考虑高可用性、易管理性和高可靠性。 银行业:点多面广,业务活动频繁,业务品种变化多,业务量增长快是该行业最大的特点,因此设备类型复杂,对稳定性和响应时间要求比较高。银行系统设备类型多,更新快,业务数据处理频次高,而且服务器对数据处理的时间比较集中,重点考虑平台的开放性和高扩展性、高可用性、高可靠性。 证券业:主要用于行情服务和交易服务,具有迅速、及时响应和稳定、安全、可靠、不间断运行的要求。因为服务器的数目会越来越多,提供的应用也越来越多,所以考虑到数据量大,而且服务器对数据处理的时间比较集中,重点考虑平台的开放性和高扩展性、高可用性、高可靠性。 保险业:分布广,需构建一个集信息平台、应用开发平台、多媒体应用平台为一体的综合性信息与应用系统,满足企业内部的信息发布和共享、信息交流及企业办公与业务管理自动化的需要。重点考虑高可靠性和性能价格比。 制造业:当今的制造企业在产品的设计、制造、服务过程中大量采用了信息技术手段,来提高企业的工作效率、对市场信息的迅速反应能力和产品的加工能力。企业不间断生产是提高经济效益的一个有效途径。这就要求服务器必须在“可靠性、可用性、可管理性、可维护性、可兼容性、可扩展性”等方面得到更好的保障,才能够有效保护用户投资和应用。 由此我们可以看到,虽然各行业特点不同,但总体上对于服务器的需求都是强调可用性、可靠性、可扩展性、可管理性、开性和性价比等方面,只是侧重面有所区别。显然,只有达到上述要求的服务器产品,才能算得上是用户的最爱。 容错是一个系统概念 容错技术的产生和应用正是在上述需求下应运而生的。 容错能力是指在出现故障时,服务器能继续工作的能力。容错系统一般有两种,即因有热备份方案而允许出错的系统,和对出错非常敏感的系统。这里的“出错”既有人为因素,也有非人为原因。由于工作要求,服务器必须具有高可用性和可持续工作的能力,一个成功的基于Internet的电子商务系统在7×24小时全天候运营中是没有停机时间的,即使是在计划内系统管理和维护时也不例外。 如果在线客户在需要得不到响应时,那么他们就会毫不犹豫地转向其他厂商。而且,应用服务提供商通常必须遵守服务等级协议(SLA),如果没有满足商定的正常运行时间要求,就要面对严厉的惩罚。在这种环境中,可用性不是一项选择,而是必须执行的商业命令。 针对此种情况,服务器容错技术的出现保证业务系统的7×24小时不间断运转,连续可用性高于99.999%,系统全年停机时间仅为5分钟,极大地降低了企业业务在各种不可预料灾难发生时的损失,容错技术的优势此时会非常明显地凸显出来。 以往的机群系统在出现故障的情况下,需要中断服务器的运行,然后用一定的时间切换至备用的服务器上面运行,才能进行维修和恢复。这其中所付出的成本和带来的损失是用户最不愿意看到的。容错技术的产生和发展对正是这一问题的突破。具有容错技术的容错服务器,最大的优势就在于解决了这一难题。它能够自动分离故障模块,在不中断运行的情况下,进行模块调换,对损坏的部件进行维护,并且在一切物理故障消除后,系统会自动重新同步运行,从而有效地解决了客户的后顾之忧。 容错服务器的五大特征 在容错技术成熟后,容错服务器的产生也就是理所当然的事情了。 严格意义上的容错服务器是指主机所有部件均为冗余设计,如美国容错公司采用的DMR/TMR(双模冗余/三模冗余)设计模式,以及系统连续可用性高于99.999%,全年停机时间不超过5分钟的服务器系统。目前主要的生产厂商是美国容错公司和日本NEC。其他在性能指标上类似的产品还有HP的NonStop S系列。 容错服务器从结构上看,采用的是部件级冗余设计的体系结构,可靠性指标要比双机Cluster系统要高。 那么,容错服务器是否真正满足了用户的这些切身需求呢?以典型的NEC Express5800/ft系列和美国容错公司的Stratus ftServer 6600为例,我们可以看到如下特点。 一、完全冗余。容错服务器的所有部件全冗余,这样的构造能够在任何硬件损坏的情况下允许进行热插拨维修,同时保证服务器不间断运行的高可用性。系统可用性达99.999%,消除因系统平台故障带来的后顾之忧。 二、同步容错。在出现硬件故障的情况下,容错服务器能够自动分离故障模块,在不中断运行的情况下,进行模块调换,对损坏的部件进行维护,并且在一切物理故障消除后,系统会自动重新同步运行,保证系统数据不会丢失、完整无缺。 三、扩展方便。NEC Express5800/ft系列配备两套4个64位的PCI总线插槽;ftServer 6600最多可配置两套6个64位PCI总线插槽,二者均拥有较好的可扩展性能。 四、可用性高,易于管理。容错服务器采用的基本操作系统是Linux/Windows,实现了透明的I/O切换和无数据丢失防护。而且大多数IT从业人员均能使用Linux/Windows操作系统,降低了企业管理服务器的人力成本和培训成本。Express 5800/ft和ftServer 6600均自带专门的管理软件,能够轻松实现远程系统复位、图形化远程终端、改变系统设置、信息捕获等管理功能。 五、性价比高。相比于价格昂贵的集群服务器,容错服务器拥有相对低廉的TCO,给日渐紧缩的IT预算提供了新的选择。 产品链接 Stratus ftServer 6600由6片1U部件刀片组成,这些刀片插入在19英寸机架内的背板上。这些刀片采用Xeon 2.8 GHz处理器的CPU模块,2个Core I/O模块,以及扩展I/O模块。它可配置成三模冗余CPU模块来保证系统可靠性,更加适合证券交易所、大型数据库和需要灵活配置的场合使用。
Stratus ftServer 6600 NEC Express 5800/ft机架式和塔式两种产品形态—机架式的NEC Express5800/320Lb-R和塔式的NEC Express5800/320Lb。每台服务器可配置两路Xeon处理器芯片,内存容量最高可升级到6GB。系统在进行双CPU同步运算时可以提高运算效率和速度,对运算任务的分配更为合理。
NEC Express 5800/ft 案例链接 湖北日报报业集团2002年9月下旬采用Stratus ftServer 6500系统,作为集团内部新的采编系统服务器。该系统基于Windows 2000 Advanced Server操作系统,运行SQL 2000数据库和北大方正的文韬4.2.005文件和数据库采编系统,最大可以支持600个采编用户。湖北日报社原本采用双机Cluster模式服务器,因无法实现不宕机条件下的应用切换,影响报社业务的正常进行。改用Stratus系统后,实际用户数量已达400余名,系统工作状态良好,服务器未发生停机,客户也没有不良反馈。
湖北日报报业集团新闻及资料采编系统 200年7月,NTT-ME Chugoku Co.与日本基础工程局通力合作,共同创建了“DoPa泥石流灾难监视系统”。这一系统通过DoPa网络从安装在泥石流高发地段的观测设备上收集数据,作为此系统核心的服务器除了具备高度容错能力,还必须满足24×365的高负荷运行要求。而最终NTT选择了NEC Express5800/ft作为该系统的核心服务器。2001年12月,在基于NEC Express5800/ft系列的监视系统开发完成后,该系统便进入销售旺季,随后,NTT-ME将此系统推广到了日本全境。
NTT DoPa泥石流灾难监视系统 |
|||||||||||||||||||||||||||