
| 出版日期:2004-11-22 总期号:1366 本年期号:87 |
|
防患于未然
——中远集运成功应用业务连续/容灾系统 文·图/本报记者 叶林海 2004年8月,位于上海外高桥保税区的中远集装箱运输有限公司计算中心大楼突然发生火灾,中远集运业务管理系统中断。灾害发生后,设在40公里以外中远集装箱运输公司总部内的业务连续/容灾系统立即启动。18个小时以后,丢失的数据完整恢复,系统正常运行。 这是中远集运对刚刚搭建的一套能够从广域网上直接操作数据中心的业务连续/容灾解决系统进行的演练。自8月份以来,中远集运对这套系统进行了全球范围内的测试,结果屡战屡胜。为此,中远集装箱运输有限公司计算机中心主任顾钱彬表示:“我对这个项目是非常满意的,它达到了比我期望还高的效果。” 防止万一“搁浅” “随着企业对网络应用及数据信息依赖性的日益增加,复杂庞大的业务产生了海量的信息数据,为维护及保持数据的安全,最低限度地降低数据损坏带来的影响,数据信息的实时备份和容灾处理变得愈加重要。”在中远集运运营一线工作十多年的顾钱彬,对数据安全的理解非常深刻。 正如顾钱彬所言,中远集运拥有和经营着600余艘现代化商船,年货运量超过2亿吨。在中国,中远集运在广州、上海、天津、青岛、大连、厦门、香港拥有各类型远洋运输船队;在海外,以日本、韩国、新加坡、北美、欧洲、澳大利亚、南非和西亚8大区域为辐射点,以船舶航线为纽带,中远集运形成了遍及世界各主要地区的跨国经营网络。为了更好地管理这个庞大的经营网络,中远集运近年斥资10亿元人民币建成了集装箱运输管理信息系统。这一系统时刻都在处理着来自世界各地的海量数据。一旦遇到灾害,系统损毁,若没有灾备系统,业务系统不能及时恢复使用,公司就会垮掉。 于是,HP从多家供应商评选中脱颖而出,最终被聘为中远集运灾难环境建设的咨询顾问。谈及为何携手HP,顾钱彬表示:“HP公司具备业界全面的企业级产品体系,同时HP还可以采用业界通用的标准结合他们丰富的经验共同为客户设计和建设容灾系统。” HP与中远集运一起做前期调研分析,根据中远集运的业务特点,与业务部门沟通后达成共识,最终确定了中远集运业务连续/容灾系统项目的目标,即RPO(可承受的最大业务数据丢失时间)为24小时,目前实现的系统可以满足最大业务数据丢失小于20分钟左右;RTO(从灾难发生到IRIS2系统恢复可承受的最长时间)为24小时,目前实现的系统可以满足从灾难宣布到IRIS2系统恢复完成小于18小时。 灾备系统建在哪里?这也是个关键的问题。顾钱彬告诉记者:“综合分析上海地区的地理环境,考虑到相关风险和投入,最终我们考虑在同城异地,就是在距离数据中心40多公里以外的总部机房建设灾备系统。” “知识”成功转移 中远集运业务连续/容灾系统项目的成功依靠HP与中远集运的密切分工合作。 如此重要的项目,为何不让专业供应商来实施,而让自己的队伍去实施完成呢?顾钱彬介绍:“此前,中远集运的IT人员在专业实施队伍的带领下做了不少项目,积累了一定的经验。在后期决定由中远集运自己的队伍来实施,主要出于两方面的考虑,一方面可以降低成本,另一方面也可以借助专业咨询队伍的指导锻炼自身队伍,实现知识转移。” 2002年12月,中远集运业务连续/容灾系统项目正式启动。项目产品选型是中远集运首先要解决的问题。谈及项目选型所遵循的原则,顾钱彬告诉记者:“首先,成本控制是我们重点要考虑的一个方面。其次,要考虑供应商本身的服务能力。第三,要考虑设备的性能,就是这个性能是不是最终能满足我们的要求。” 在实施过程中,灾备方式选型成为核心问题。为此,中远集运征集了多家厂商提供的方案,经过反复论证,为了满足容灾环境系统恢复时间的要求,且保证IRIS2系统中各应用模块底层数据的一致性要求,中远集运最终选用了基于磁盘底层的数据同步复制方式(SRDF)。由于采取同步复制方式,灾难发生时,中远集运生产环境的核心数据丢失可以控制在20分钟。顾钱彬告诉记者:“20分钟对于我们这么一套复杂的系统来说还是比较令人兴奋的,否则几个小时的数据丢失,要保证各应用模块之间数据的一致性和完整性,其工作量非常巨大。” 通过SRDF技术,以裸光缆作为介质进行数据同步复制的方式,对生产环境的性能必然会产生一定影响。中集也不例外。在中远集运实施SRDF试运行时,也同样发生了这样的问题。但由于前期风险评估工作细致,回退方案完备,项目组及时采取了措施,停止了同步复制。然后对收集到的数据进行分析,最终项目组采用磁盘底层分割的技术,解决了这个问题。 就系统实施的成功之处,顾钱彬表示:“环境设计上,我们使用了多环境复用的方式,充分利用了灾备环境的硬件资源。” 2004年8月底,中远集运业务连续/容灾系统交付使用。谈及收获,顾钱彬表示:“通过做这个项目,中远集运潜移默化地实现了知识转移和技能转移,从而把队伍锻炼出来了。” 维护难于建设 “中远集运业务连续/容灾系统涉及到IT,涉及到方方面面的业务,同时地域涉及到全球8大区域不同的数据系统,非常复杂,建设难度可想而知。”顾钱彬不否认系统建设的难度。 为什么从灾难宣布到系统恢复要花18个小时呢?这从一个侧面也反映出系统的复杂性。中远集运的集装箱运输管理信息系统是从东方海外引进的。该系统花了7年时间研发出来,而且当时的很多技术实际上是不成熟的,包括面向对象的数据库。系统运行靠Unix 20多台服务器和36台NT服务器,有十几个数据库。 其实,中远集运业务连续/容灾系统目前只是局限于主营业务数据的保护。一些不是那么关键的应用,目前还没有纳入业务连续/容灾系统内。对于这种情况,顾钱彬告诉记者:“那些非主营业务的数据的保护将来我们会去做的。” 谈及业务连续/容灾系统的使用与维护,顾钱彬告诉记者:“实际上,容灾项目最难的还不在建设,而是在后期的维护当中,没有完善的变更管理、定期的演习测试、完善的文档更新流程,灾备环境的可用性是很难维护的。所以保证容灾环境可延续的容灾能力是我们长期的工作。” 因此,中远集运计算中心针对业务连续/容灾系统的使用与维护制定了一系列的计划,比如,不断地改进DR环境的恢复能力,将DR环境纳入现有的ITSM一系列运维流程中去,严格执行变更,同时结合新上线应用的容灾需求,进行业务连续性的分析,将恢复方案整合到现有的容灾方案中去。 “我们还将结合安全项目,进一步加强口岸用户的容灾意识和面对灾难性事件的应急处理能力。”顾钱彬补充道。
中远集运数据中心集结了大量的Unix和NT服务器
中远集装箱运输有限公司计算机中心主任顾钱彬 |
|||||||||||||||||||||||||||||