
| 出版日期:2004-05-24 总期号:611 本年期号:18 |
|
让两台服务器保持同样的“心跳”
宝德科技品牌推广中心产品经理 陈振智 监控和冗余保证 单机可靠 网络中的数据对企业越来越重要。主机硬件损坏、突然断电及病毒破坏等,都容易造成数据丢失。这种丢失对企业造成的后果是难以估量的。因而,如何保障数据的安全,成为了企业和服务器厂商考虑的重点。
宝德从服务器特性出发,在基础层面保证系统的可靠性。首先,宝德特有的服务器管理模块PSM,提供了对服务器硬件的监视。 宝德PSM可监控主板及CPU温度、风扇速度、关键部件电压、内存错误等,预警及警报信息则通过本地或远程控制台显示。宝德PSM是硬件和软件的结合:在服务器主板上集成BMC(主板管理控制器),深入到服务器管理总线的最低层,传感器遍布整个系统,从而保证监视到服务器中更丰富的内容。 其次,宝德采用服务器冗余技术,如多处理器技术、校验内存、冗余电源、冗余网卡、磁盘RAID技术等,来防止服务器意外停机而导致数据间断或丢失。 在线备份提升安全等级 上述保障措施,使系统处在一种可预测的情况下,并且对常用部件可自动补救。在此基础上,宝德进一步提供数据容错备份以及更全面的容灾存储方案。宝德还根据用户的具体需求,设计互为补充的数据安全策略。 主机数据的主要内部存储载体是硬盘,系统正常运行依赖于完整稳定的数据系统。硬盘是很敏感的存储部件,许多不正常的工作方式(诸如震动、病毒程序)等都可能对硬盘造成损害。目前,最可靠的方法就是数据备份。 通常,数据备份的方法有:备份到软盘;通过网络备份到其它计算机;通过磁带机备份;通过其它载体备份。数据备份的技术有:在线备份(如双机容错/热备)和离线备份(如双机冷备份)。 在线备份中常用的是双机容错/热备。随着技术的发展,集群服务将提供更先进的在线备份策略,这些技术能保证系统数据和服务的“在线性”。即当系统发生故障时,仍然能够正常地向网络系统提供数据和服务,以使系统不致停顿。 综合方案确保数据安全 宝德提供基于集群的双机热备综合解决方案,以确保数据的安全。 一、基本组成和原理 宝德双机热备份方案是一种软硬件结合的应用模式。 系统组成:由两台服务器和一个外接磁盘阵列柜及相应的软件构成。用户的数据放在外接磁盘阵列柜的存储盘里,操作系统和应用程序安装在两台服务器的内置系统盘上,双机热备份系统由相应的软件控制。其结构如图1所示。 当一台服务器作为主服务器运行某个应用时,另一台服务器就是备份机。在系统正常情况下,备份机监视主服务器的运行情况。当主服务器出现异常(如主机故障、网络故障、软件故障等),不能支持信息系统运行时,备份机自动接管主服务器的工作,继续支持信息的运营,从而保证信息系统能够不间断地运行。 当主服务器经过修复正常后,系统管理员通过管理命令,以人工或自动的方式将备份机的工作转给主服务器。此时,原来的备份机成了主服务器,而原来的主服务器就成了备份机。 两个心跳进程(Heartbeat)分别在主、备份服务器上运行,它们通过符合串口协议或TCP/IP协议的多种物理硬件连接方式连通心跳线,来相互汇报各自的健康情况。当备份服务器不能听到主服务器的心跳时,备份服务器会接管主服务器的工作提供服务。当主服务器恢复时,将自动变成备份服务器,或备份服务器释放服务控制,主服务器收回控制权并提供服务。 服务器之间的通信采用socket通信方式来实现。为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。服务器与磁盘阵列柜之间的通信采用SCSI、光通道(FC SCSI)或iSCSI协议来实现。 二、集群系统下双机热备的价值 在线各类应用程序处于系统运行的中心地位,一般包括数据库、消息服务器、企业资源计划(ERP)应用及核心文件/打印服务等功能。当任一节点出现硬件或软件故障时,当前运行在该节点上的应用,会由集群服务功能转到其它无故障的节点并被重新启动,确保各类应用程序在需要的情况下处于在线状态。 集群服务中也可使用SCSI、光通道或iSCSI连接的共享磁盘阵列配置,构成集群系统下的双机或多机热备系统。因此,在故障应急期间将不会有数据被丢失。最常见的情况是双机数据库服务器共享一个磁盘阵列。 双机集群涵盖了双机容错Dual Active的所有功能,并且进一步实现了以动态流量均衡机制,来实时合理地分配主机的负载,使系统具有智能的高可用性。在集群系统中集成双机热备份,可以提供更全面的数据安全策略。 在Active/Active模式下,设为热备份的双机都服从集群的统一管理,享受集群管理的价值。如高可用性、可在线屏蔽故障结点;还有负载均衡、动态平衡双机的负荷,使流量分配在一个合理的水平,保证信息访问的畅通,甚至对网络拥塞提供应用级QoS的保障。 在Active/Standby模式下,设为热备份的双机通过共享磁盘或磁盘阵列,可以执行热备份的功能。两种模式可自动/人工转换,为保障数据安全提供丰富、智能的措施。 三、双机热备/双机集群集成的优势 减少计划外的停机时间 由硬件或软件故障引起的停机,会导致收入损失、IT人工浪费和客户不满。在关键的在线应用中,将双机热备与集群服务功能配合使用,能够大大减少由意外故障导致的停机时间。 平稳地进行升级 集群服务确保在不影响客户的前提下,实现应用的透明升级。通过先将应用转到另一个节点,然后在原节点上进行升级,最后再将应用移回原节点这一系列操作,能够在不使应用脱机的情况下进行硬件、软件甚至操作系统的升级。 适合几乎所有的应用 集群服务受许多具有集群能力的应用的支持,而这些应用涵盖了众多的功能与供应商。集群应用包括诸如数据库、E-mail、Web、在线游戏、电子商务、电子政务等各种行业或领域。 支持工业标准硬件 通过在宝德标准PC服务器和存储硬件上,设计使用集群服务及双机热备功能,避免了使用昂贵且需要经常进行更替的专用解决方案,可使有关成本费用保持在较低的水平上。 易于安装和使用 集群服务器之间都是通过TCP/IP连接和通信,和以前没有使用集群技术时在硬件安装和实施上没有太大的分别。再配合改进的安装向导程序,集群服务安装程序仅需简单的步骤,即可完成对各个集群节点的设定。 宝德Linux集群系统可以管理2到200个结点。在该系统下,对于特别强调双机热备功能的项目,可以使用第三方双机热备软件,与双机负载集群的高可用性互为补充。 另外,Windows 2000 Advanced Server支持双节点故障应急群集,Windows 2000 DataCenter Server支持四节点群集。这两个系统还同时支持双机热备,需要时进行必要的设置就可以了,而不需要第三方的热备份软件。 |
|||||||||||||||||||||||