ccidnet????

出版日期:2004-04-12 总期号:1304 本年期号:25

本期导读
要闻综合
中国信息化
网络与通信
软件与服务
产品与应用
渠道与市场
华东专刊
华南专刊
西北专刊
东北专刊
DataGrid:海量数据处理是关键系

刘鹏

  欧洲原子能研究机构——CERN是环球网WWW(World Wide Web)的发源地,建有世界上最大的正负电子对撞机LEP和超级质子同步加速器SPS。目前,CERN下的1800名物理学家正在为下一代全新的加速装置作实验准备。作为人类历史上最强大的粒子加速器,该装置称为大型强子对撞机LHC(Large Hadron Collider),将于2005年投入使用,它需要把海量数据分散到全球的计算机上进行处理,并由全球的物理学家共同分析。在这一背景下,欧盟耗资980万欧元资金,由CERN于2000年12月29日立项成立数据网格的代表之作——欧洲数据网格DataGrid。

  DataGrid中粒子检测器产生的原始数据具有PB/s量级,经过在线系统过滤后,经具有20万亿次处理能力的离线处理场处理,最终以大约100MB/s的速率永久写入磁带,这个100MB/s 就是DataGrid真正需要处理的数据速率。CERN计算机中心负责将这些数据通过高速网络分配给欧洲、北美、日本等区域中心,后者再将任务进一步分解,而到物理学家的桌面时,其数据量只有1MB/s,已经可以很方便地进行数据处理了。

  DataGrid需要解决许多问题,诸如:DataGrid需要管理成千上万个处理器和磁盘、千万亿字节(PB)的数据和每秒万亿比特(Tb/s)的网络带宽,面对如此复杂的系统,如何才能保证它的高可扩展性、低成本和易管理性?广域网的带宽只是局域网的1%~10%,不同的研究机构有不同的管理者和管理政策,如何保证数据要在它们之间安全地分发、复制、缓存并保持同步和完整性?如何才能协调好不同国籍、不同研究机构的科学工作者的工作,使他们及时分析数据并汇总结果?具体做法是,当用户提交一个任务时,DataGrid首先分析完成任务所需要的计算资源,然后找到这些资源并分配给任务。同时,运行任务所需要的数据也被检索出来并传送给计算资源。在这个过程中,DataGrid需要具备分析任务、随时掌握网格中资源、执行任务程序、任意传输数据、判定和保障服务质量、从错误中恢复、记录出错情况等能力。DataGrid的体系结构(如图所示)就是针对这些能力需求而设计的。这些的问题妥善解决,不仅对于在LHC上开展的实验是至关重要的,而且对于其他领域的研究也具有指导意义。因此,虽然在高性能计算机、集群、网格等领域里美国一直处于领先地位,但欧洲的CERN所开创的大科学研究是美国难以望其项背的。

  进行DataGrid的研究有两个选择:一个是自始至终地完成全新的数据网格中间件,不借助第三方的网格平台;另一个选择是基于Globus,在其基础上扩展数据网格所特有的中间件代码。虽然这个问题看似简单,但国内的确有些研究人员喜欢从头开始,其效果未必好。DataGrid毫不犹豫地选择了基于Globus平台。因为Globus已经完成了DataGrid所要解决的80%的网格问题,这样,DataGrid就可以专心解决剩下的20%问题,成功的把握性要大得多。除了与Globus项目组织联合开展研究外,DataGrid甚至与美国的“竞争对手”GriPhyN建立了合作关系。GriPhyN是一个与DataGrid类似的物理数据网格。

  综上所述,DataGrid在很大程度上是为大型强子对撞机LHC准备的。CERN有开展大科学研究的传统,DataGrid无疑会提供一个更强有力的协同研究平台。在设计上,DataGrid立足于Globus,同时扩展处理海量数据和开展协同研究的能力。在项目实施上,DataGrid所开展的国际合作是值得我们借鉴的。


  DataGrid体系结构图