ccidnet????

出版日期:2004-10-11 总期号:1354 本年期号:75

本期导读
要闻综合
中国信息化
网络与通信
软件与服务
产品与应用
渠道与市场
华南专刊
华东专刊
西北专刊
企业无远虑 必有近忧




  IBM全球服务部容灾备援服务经理 赵庆

  

  2001年9月11日,恐怖分子劫持客机撞击了世贸中心。这一灾难深刻地影响了全球安全机制。世贸中心里当时配备有高效的自动灭火系统,足以应对楼内任何火警,但是爆炸的是一架装满燃油的客机。早在1993年2月,世贸地下室已经发生过爆炸案,造成多人伤亡。8年内,世贸的保安力量大为加强,但是没有人想到威胁来自空中。

  这一切都启示人们: 容灾是一个全面深入和有机的系统,有备无患并不简单。受到刺激的也包括企业IT容灾的相关人员。今天,企业的信息至少和现金、设备这些实体财富一样重要,但可能更加脆弱。

  据美国劳工局统计: 在曾遭受过重大数据丢失的公司中,93%的公司在5年内破产。而来自Gartner的数据显示: 在经历过大型灾难或长时间系统中断的公司中,有2/5再也未恢复运行; 而在幸存者中,仍将有1/3在两年内陆续破产。

  知行合一

  客户在规划IT基础架构时就应该综合考虑容灾问题。一旦建立容灾中心,组织上必须到位。不能仅仅视容灾为系统的一个模块,而要将业务连续性上升到组织战略的高度:对企业而言,意味着市场竞争力;而对于政府机构而言,是为公民提供持久服务的保证。

  IBM已经开发出实用和成熟的业务连续性管理方法,能够帮助客户勾画正确的灾难恢复战略和实施方案。该方案由三个阶段组成:分析、设计和实施。

  分析阶段包括三个步骤,即风险评估、业务影响分析和对当前业务恢复能力的研究。该阶段主要对潜在的损失、各种影响和当前的恢复能力给予定性和定量的评估。另外,它还指出灾难情况下的业务需求,并推荐实现完全恢复的必需措施和快速解决方法。

  CIO在规划容灾体系时,首先要确定应对哪些灾难,是电力、空调等涉及建筑的隐患,还是像SARS这样波及整个城市的风险。其次,进行业务的深入分析,确认灾难影响业务的方式和程度。通常很多客户对灾难的损失没有一个具体量化的考核,他们能够坚持一周、两周或者更长的时间,但是如果挺不过来就可能像上述的公司那样再也无法恢复了。

  设计阶段包括恢复战略和业务持续性规划。该阶段的重点是规划和设计在组织和技术层面上满足恢复要求的必需行动和解决方案,其中包括选择硬件、软件和第二个数据中心。

  根据对灾难类型和损害的评估,最终可以确定灾难所需要的恢复时间。恢复时间越短,费用越高。理论上以秒计也能实现,这全看企业能够承担的损失和付出的代价。

  对于容灾,不同的行业各有侧重。例如银行的安全关系重大,利润相对丰厚,所以都力求做到应用级的容灾,在规划和实施时也应请专业公司来指导,力求做到运作规范、产品先进。而在电信行业,移动运营商更关注新业务的开拓,强调IT的可用性; 固话运营商则相对稳健,故其容灾尚保持在数据级水平。

  即使在相同的行业,不同的企业对容灾的需求也可能有所不同。一个企业内部,不同数据和应用的重点也可能会差异悬殊。同样都可以采取上述的评估方法分出轻重缓急,合理分配容灾资源。

  实施阶段重点在于,业务持续性方案和IT恢复方案的实施。该阶段的主要工作是为持续性和恢复方案定义、实施和维护所必需的行动。这些行动包括产品的安装、第二个数据中心的建设,以及持续性方案的测试及维护。

  势在必行

  在国内,虽然金融、电信等IT应用较好的行业已经打下一定的容灾基础,但整体而言,容灾的重要性才刚刚提上日程。

  除了国际反恐的大形势,2003年的SARS也是一个转折点。当时很多机构都让员工在家休无限期的长假,造成业务中断。这段恐慌没有虽然延续太久,但是改变了我们以往对IT容灾想当然的看法。

  实际上,灾难的冲击并不局限于消防、电力、治安等等对数据载体的物理破坏。这些“固定”的信息只是一个恢复的基础。对于企业而言,真正有价值的是信息循环往复的流动。在SARS期间,机构并没有发生直接的物质损失,办公室毫发无伤,只是没有人在工作,但是结果和那些“物理”破坏的效果并无分别。很多公司尝试推行SOHO,最初的几天乱成一锅粥。管理层费尽力气,才把分散在各自家中的员工比照此前的流程组织起来。吸取这个教训后,在SARS之后,众多机构,特别是政府启动了应急预案的规划和操练。

  国内商业环境的成熟则对企业IT容灾的发展有着潜移默化的影响。以银行为例,在计划经济时期,业务说停也就停了。但是,目前随着众多中小新兴银行大张旗鼓地开拓市场,以及外资银行的跃跃欲试,国内银行界都高度重视容灾系统的建设,以最大限度地保证客户的权益、提升企业的竞争力。四大商业银行都在做全国的大集中,容灾系统是其中不可或缺的环节。

  特别是进入2004年,政府加强了对企业IT容灾的推动力度。特定的行业监管机构,如银监会、证监会,早已将容灾的精神包含在风险控制的相关规章中; 近期国务院信息化办公室专门发布了一个指导性文件,要求商业和行政机构要从长远考虑,居安思危。

  应用至上

  当前的容灾解决方案主要还在数据级层面,更先进的企业已经着手,或者已经部署应用级的容灾解决方案。

  当生产中心现场整体发生瘫痪故障时,备份中心必须能迅速切换为生产系统,以保证业务的连续性。以银行为例,需要恢复的不只是全部交易信息,还有银行的各种应用,及与各个网点、供应商的连接等。灾难发生后迅速地恢复,对于前台的客户而言,也许根本意识不到整个后台系统已经在地理上迁移了上千公里。

  这正是目前众多国内企业对容灾认识的误区所在。容灾并非只是投入重金购买一些复杂而昂贵的机器,也不限于在郊区或外地摆一套设备。我们在帮助客户实施方案中经常碰到这样的情况: 他们有双机做热备份,但是不能切换。

  实际上,这并不是纯粹的IT问题。随着技术的发展,特别是外包已经渐入佳境,纯IT层面的困难最后都是有办法克服的。目前在国外,数据一般都丢不了。

  但是,如果企业没有一个详实的应急预案,发生灾难时技术切换、业务切换的流程不清晰,场地没有着落,人员不能到位,终端缺乏连接; 或者应急预案虽然已经成形,但是很少演习,难以达到在企业内深入人心的地步; 或者落后于环境的变化,那么,所谓容灾是无从谈起的。

  外包崭露头角

  由于容灾自身的特点,很多企业选择了外包。容灾投入巨大,但不会有一分钱产出; 可是一旦灾难来临,却关系到生死存亡,又丝毫不能大意。专业的容灾服务供应商能够保证更高的容灾级别,分担更多的业务中断风险。

  台湾玉山银行就是一个很好的案例。2002年,在重创台北的纳莉台风灾害中,只有玉山银行在灾后第三天就开门营业。事实上,该行的机房设备同样也在大水中瘫痪。两周内,IT人员都在IBM的容灾中心上班,对客户的服务没有受到任何影响。

  玉山银行自开业始就将容灾视为营运基础,对所有应用的开发、容灾的机制与等级都考虑在内。例如,与账务无关的流程,就可以容忍短暂的宕机。签下异地容灾的外包服务协议并不意味着万事大吉,之后玉山银行每半年进行一次演练,要求所有人都要正确行动; 每次演练内容都不尽相同,反复增加新的意外; 演练的过程与细节都记录在案,加以持续改进。

  就像玉山银行副总经理杨恒华强调的一样:“最好的防护就是知道该做些什么。”外包的核心问题和自力更生是一样的: 先进的产品、服务都可以在市场上买到,但是企业确定需求的工作却无人可以代劳。