ccidnet????

出版日期:2004-03-22 总期号:1298 本年期号:19

本期导读
要闻综合
中国信息化
网络与通信
软件与服务
产品与应用
渠道与市场
华东专刊
华南专刊
西北专刊
东北专刊
西南专刊
HPC助力生物信息科研
——浪潮天梭TS10000在华中科技大学的应用
谢文砚

  生物信息研究是当今世界科技发展的热点之一,而现代生物信息研究离不开高性能计算机系统的支持。华中科技大学所采用的浪潮天梭TS10000机群系统,构建出强大的计算平台与数据库平台,提高了实验室的大规模数据处理能力,从而加快了科学研究和技术成果转化的进程。


  用户需求

  开放、标准、高速互联和高效


  华中科技大学的生物医学部长期从事生物学教学研究工作,对大规模科学计算有很高的需求,希望通过构建强大的计算平台与数据库平台来不断提升大规模处理的能力,以便加快科学研究和技术成果转化的进程。从事生物研究的科技工作者需要采用合适的硬件和软件组成研究平台,他们需要的不仅是一个供应商,而是一个可以从软硬件、系统分析和科研开发几方面都能够配合的合作者。

  他们需要系统的软件和硬件以及基础架构都力求规范、标准、开放、通用,以方便用户使用和在其平台上开发自己的应用。因此,最大限度提高平台上应用程序的运行效率和可移植性,是华中科技大学的首要需求。

  此外,系统计算节点间的高速网络需要采用千兆以太网作为互联标准,使节点间带宽达到1Gbit/s,以提升机群的并行度和实际计算峰值,保障网络连接不会成为系统性能的瓶颈。

  系统的节点计算机还应该具备灵活性,例如节点机有多种配置可选,配合千兆以太网的强大带宽以及较低的延迟,使整个机群的峰值计算能力以及实际预算能力这两项指标都满足实际计算需求;系统还应该能够方便地扩充,在并行度上接近或赶上大型机的水平,同时价格更加低廉。


  案例背景


  “为什么每个人对疾病的易感性不同?为什么不同人群之间在身高、肤色等性状上存在不同?关键就在于人与人之间存在不到千分之一的序列差异。”科学家这样解释,“人类自己对生命的了解是很有限的,生命的奥秘亟待进一步去揭示。”

  21世纪,各个国家都把发展生物信息科学做为重点,华中科技大学生命科学与技术学院承担的相关在研项目就有58个,国家立项的百万元以上的转基因专项就有6项。这么多的研究项目,相关信息出现了爆炸性增长,研究人员面对的是海量生物学数据,与基因相关的生物学数据增长幅度越来越大,数据翻番的时间在不断加快。数据的积累已远远超出了实验室的分析能力,而传统的计算方法也遇到了挑战。国外进行生物信息的海量数据处理都使用大型计算机,国内的研究机构在使用大型机进行计算方面还比较薄弱,而且如果采用国外的设备,不仅硬件设施价格昂贵,而且服务费用支出不菲。要解决这样的问题就必须发展新的分析理论、方法与新的技术、工具,这就是依靠高性能计算机机群来完成信息处理工作。正是基于这样的现状,华中科技大学生物医学光子学教育部重点实验室准备构建大型生物信息数据中心,以解决数据处理、交换和存储等科研瓶颈。


  方案分析



  图1 华中科技大学项目机群拓扑图

  华中科技大学采用的这套基于InfiniBand高速互联技术的浪潮天梭TS10000高性能系统,用于生物信息学中的科学计算、模拟和可视化研究,构建大型生物信息数据中心。

  该系统为华中科大从事生物信息科研工作者们提供高速、海量的应用服务,为生物信息学研究提供了一个基于硬件、软件和数据库集成环境下的统一运行平台。为了更好地帮助华中科大科研工作者们从事生物信息研究,浪潮和该实验室还将进一步在这个领域合作,进行生物信息处理相关的数学模型、算法和应用软件的研究和开发,以提供软硬一体的解决方案,这将大大缩短学者们的研究周期。而由浪潮(北京)电子信息产业公司捐助建设的“华中科技大学-浪潮高性能生物信息中心”也已正式启用。

  浪潮天梭TS10000产品采用专业的集群管理软件,实现了集群部署的自动化、快速化,更方便实现人机互动,使得整个集群系统更易于管理,形成了一套单一映像的集群软件架构。

  华中科技大学该实验室负责人骆清铭教授认为:“生物信息研究是当今世界科技发展的热点之一,而现代生物信息研究离不开高性能计算机系统的支持。华中科技大学采用的浪潮天梭TS10000 机群系统,构建出强大的计算平台与数据库平台,提高了实验室的大规模数据处理能力,从而加快了科学研究和技术成果转化的进程。”


  解决方案

  弹性部署显威力 易于管理易扩展


  浪潮针对华中科大的需要,一方面在生物学网格计算、生理系统仿真、虚拟人项目等应用中,通过服务器集群提供高性能计算能力,以及集群管理、作业调度等系统软件和相应的集群管理方案;另一方面提供强大的数据库系统,用于生物基因、蛋白质数据的存储和挖掘、网络化存储、以及提供核心数据的备份方案。

  浪潮天梭TS10000高性能集群系统,是基于国际最高技术水平的InfiniBand高速互联网络设计而成。华中科技大学此次采用的系统基于4倍速InfiniBand高速互联网络技术,其计算效率、实际计算能力、互联性等指标,都高于目前在高性能计算领域被广泛采用的其他高速互联设备。同时,InfiniBand也支持高性能的存储I/O,满足了生命科学计算对较高存储I/O能力的需求,便于研究人员操纵大量的数据,比如,数字化虚拟人,一立方厘米人脑结构就需要近10TB的数据来描述,这种数量级的数据计算与传输正是天梭10000高性能机群系统所擅长的。

  浪潮天梭TS10000采用先进的高速互联技术,开放式的功能模块化系统设计(见图2),其中的几大核心模块的关键特征如下。

  强大的计算模块。整个机群系统采用国际上最新的技术,所有17个计算结点均采用Intel Xeon处理器,所设计的机群系统浮点性能峰值达到100G flops以上,并行度可达80%以上,能适应大规模的并行计算需求。

  高速交换模块。方案中的中心高速交换网络采用InfiniBand网络,该网络是目前的HPC互联方案中,性能最佳、技术最领先、性价比最高的高速网络。采用4倍速标准设计的InfiniBand交换机能够使节点间的P2P通信带宽达到3.3~10Gbit/s,而延迟控制在7μs左右,从技术上给整个机群性能一个飞跃性提升。因此用户就可以在搭建相对较少计算节点数的前提下,达到更好的性能。采用InfiniBand作为交换网络的机群,由于高带宽和低延迟的优势,使节点间的每个计算单元的通信速度大大提高,因此其性能可以达到并行机的水平。

  易用的管理模块。管理模块负责硬件资源与系统资源的监控以及整个系统内软硬件的监控、报警与管理工作。机群管理软件采用图形界面,可以方便地实现人机互动。机群的安装管理功能采用人性化设计,机群系统的自动安装、规模自动扩展、核心自动升级等功能都给用户带来了较大便利。

  完善的软件体系。整个机群系统都采用了国内外最新版本的软件。节点系统软件、机群系统软件、开发运行环境和应用软件系统四个部分能够相互合作,各司其职,保证了整个系统的兼容性。

  优异的系统扩展能力。浪潮天梭TS10000机群系统为用户留了充足的扩展空间。计算结点可以根据用户的需求进行不断增加,机群系统可以平滑地增加节点,以适应用户要求。存储方面,由于系统配置了磁盘阵列,用户可以根据自己实际的需求进行在线扩充硬盘,整个存储系统的最大容量可以扩充到1.76TB。

  浪潮天梭TS10000系统设计奉行的“弹性部署”设计思想,可以使其未来不仅限于万亿次的计算能力,并且全面展现出其在可管理性和可扩展性方面的独特优势。


  图2 浪潮天梭TS10000系统示意图