ccidnet????

出版日期:2004-09-27 总期号:1351 本年期号:72

本期导读
要闻综合
中国信息化
网络与通信
软件与服务
产品与应用
渠道与市场
华南专刊
华东专刊
西北专刊
西南专刊
东北专刊
中国信息安全
中国安防超市
高能物理——引领网格新时代

中国科学院国家天文台 王晓倩 崔宾


  计算机模拟的LHC加速器隧道

  海量数据的挑战

  万维网(WWW)的发源地——欧洲原子能研究机构(CERN)是欧洲第一个联合研究机构,位于法国和瑞士的交界处,是世界上最大的粒子物理研究中心。CERN主要研究构成宇宙中所有物质的基本粒子和使这些物质聚集在一起的基本作用力,因此,需要特殊的工具来产生和研究这些粒子。CERN已经拥有了世界上最大的正负电子对撞机LEP和超级质子同步加速器SPS。

  目前CERN有大约150个小组1800名物理学家正在为下一代全新的加速装置作实验准备。该装置称为大型强子对撞机(LHC),它将是人类历史上最大的超导装置——粒子加速器。

  粒子加速器将用于粒子加速,使其具有很高的能量后和其他粒子相碰撞,在加速粒子碰撞时,检测器便记录下来这些粒子。LHC将产生能量为14万亿电子伏的碰撞质子束,形成周长为27公里的磁体。加速器每秒钟在检测器中心产生4000万次粒子碰撞事件。计算机实时地从这4000万事件中挑选出100个“好”事件,也就是符合物理学家要求的事件,并以每秒100-1000MB的速度记录在光盘或磁带上。加速器将产生空前的数据:每秒产生100MB原始数据,每年将产生需记录的事件约为1亿个,每年的数据量就为15PB(1015Byte),这相当于1500万张DVD电影。

  之后,LHC开始进行记录筛选后的数据分析:首先数据重构,将检测产生的信号转换为粒子的物理性质(比如能量、电荷、磁矩等);然后在成千上万的粒子碰撞中寻找具有相同性质的碰撞,使用复杂的算法提取出物理过程;最后利用理论进行模拟,计算出检测器里到底发生了什么?或许特殊形状的轨迹也正揭示了某种有趣的物理过程。

  存储这15PB数据量每年需要使用两千万张CD,分析则需要使用100万台当今最快的计算机处理器。因此,在未来的二十年中,主要的高能物理实验(HEP),特别是大型强子对撞机,产生的海量数据会使高能物理以及信息科学研究面临前所未有的挑战。

  如何有效利用分散资源、提升资源应用效能,成为重要的研究课题。科学家们确信解决问题的唯一思想是将存储和网络资源全球分布,进行协作式处理和分析。数据网格计算结构便是在全球物理学家之间有效实现巨大分布式计算资源协作的唯一的可行性机制。

  网格工具的未来发展

  但是,在高能核物理实验中运用网格工具还存在着许多未知的技术和策略的挑战,这需要网格技术有新的发展。比如说开放网格服务架构(OGSA)。同时,知识管理、计算和存储技术、先进的管理工具、协作技术、网络协议和光纤网络也都需要有突飞猛进的进展。这样,集成了计算、存储和光纤网络资源的新的全球信息系统将会全力支持LHC的科学任务。

  高能物理学家试图应付巨大挑战的同时,已经走到了网格发展队伍的最前端。他们联盟计算学家、网络专家、教育家、工程师,形成新的实验室和院校合作伙伴关系,去搭建可以开发大规模数据的网格,以迎接全球数据网格时代的到来。

  走近网格

  “网格(Grid)”为现有的资源共享提供了大型分布式协作式的构架,从而对海量数据的挑战迎刃而解。未来,网格将由因特网以及其中的各类资源为主干,使用者可以像使用计算机一样随时随地使用所有这些程序、服务和储存空间。一位中国的科学家坐在德国的火车上,可以使用在美国的应用程序,然后把档案储存在法国,而他无需顾虑到是由哪一个国家的计算机执行计算。一段经典的文字是这样描述的:“有关网格概念的真正问题是同等资源共享和动态、多机制的虚拟组织的解决。我们所说的共享不仅指文件交换,而是直接通向计算机、软件、数据和其他资源。就像工程所要求的那样,协作解决问题和资源代理策略。这是一种高控制的,由资源提供者和使用者共同定义共享什么,谁可以使用,以及共享发生的条件。一些研究机构和个人定义了这些共享规则,从而形成了现在的虚拟组织(VO)。”LHC工程便采用了Grid,并预计将于2007年开始运转。

  显然,高能物理学家已经走在了时代的前列。在高能物理学家、计算机学家、网络专家、科学工程领域和工业人员的协作下,几项浩大的数据网格工程正在紧锣密鼓地展开:网格物理网络(GriPhyN)。由美国国家科学基金会资助,实验物理学家与IT研究人员共同建立的数据网格,其目标是达到千万亿字节规模的数据存储和处理能力。GridPhyN的核心技术平台是PVDG,它能向全球的科学家提供一个面向数据处理的计算平台。GridPhyN先期主要开展四个应用项目的研究,包括CMS和ATLAS,这两项是在CERN的大型强子对撞机上进行的,其目的是探索物质的起源及寻找超微小粒子。还有LIGO项目,用于发现脉冲星的引力波等,以及SDSS,对数字巡天得到的数据进行自动的系统分析。

  大强子对撞机计算网格(LCG)利用网格技术,结合全球主要高能物理研究单位的计算资源,共同为LHC实验提供所需的大量计算、程序设计、数据管理与系统维护等服务。LCG第一阶段(2002-2005)主要涉及到应用程序支持环境和通用应用程序要素,计算服务和一系列快速膨胀和复杂的激素数据挑战。所有这些都可以验证软件和计算模型的有效性。第一阶段将做出评估计算系统技术设计的报告,当LHC运转时为其计算服务提供蓝图。第二阶段(2006-2008)将会监视结构,并试运行LHC计算系统。

  在1998年,MONARC小组研究了最适宜LHC计算资源的问题,认为对分布式LHC协作最有效的数据组织是等级结构。LHC便采用了这种布局,将分布在全球各局域、国内和国际互联网上的计算和存储资源连接起来,组成为五层数据网格。在这个模型中,全球资源实现了各自不同的功能。

  第零层:代表了CERN的中心设备。这里将把实验产生的原数据进行存储和初步处理。第一层:代表了国家级实验室。在这里将进行大规模的计算和数据处理,以及为物理学家提供进行高效分析的服务。第二层:代表了大学或研究所。具有足够的计算能力和RAID存储的小系统,按要求分析、模拟和重构数据。第三层:代表了大学物理系或高能物理研究小组。按当地需求分析数据。第四层:代表了个人电脑,笔记本甚至移动设备。使用这些设备来获取数据。

  数据网格等级显示的各层之间的协作实现加强了资源使用最大化。高层组织有使用第零层和第一层工具的优先权,来处理类似系统数据的存档、分布等大规模的任务。在规模相对小而且数量众多的第二层和第三层工具中,个人和工作组对专门分配给他们的小和中等规模的任务有更多的控制权。因此,当大量的物理学家竞相使用本地或远程各种工具时,各层间的数据流就会动态地传输。这些任务在优先权、转变次数、计算要求和数据大小都会有很大不同。

  在以上两个工程中,Grid发挥了巨大的功能:负载管理分解和分发任务;数据管理开发中间件以支持对海量数据的访问,既要有统一的名字空间和统一的数据格式,又要能在不同站点之间高速移动和复制数据,还要保持远程数据拷贝的一致性等;网格监控开发底层API,提供对计算构件、网络和海量存储的性能和状态信息,监控网格运行的窗口;构造层fabric是网格存在的物理实体,构造层的管理实现动态配置、自动容错、自适应资源变化以及自动调整性能特性;海量存储管理提供数据之间的转换接口,将本地的海量数据存储系统集成到网格的数据管理系统中。