
| 出版日期:2002-10-21 总期号:1161 本年期号:78 |
|
建设国家数字图书枢纽
国家图书馆数字化案例 数字图书馆是传统图书馆在信息时代的发展,它不但包含了传统图书馆的功能,向社会公众提供相应的服务,还融合了其他信息资源(如博物馆、档案馆等)的一些功能,提供综合的公共信息访问服务。可以这样说,数字图书馆将成为未来社会的公共信息中心和枢纽。 比较成熟的数字化图书馆是将包括多媒体在内的各种信息的数据化、存储管理、查询和发布集成在一起,使这些信息得以在网络上传播,从而最大限度地利用这些信息。数字化图书馆利用多媒体数据库技术、超媒体技术,针对数字化图书馆中各种媒体的特性,在图像检索、视频点播和文献资料等方面提出了一套有效可行的管理检索方案。 国图数字化项目建设背景 国家图书馆总馆占地7.24公顷,建筑面积14万平方米,地上书库19层,地下书库3层,总共可容纳2000万册藏书。馆舍面积共17万平方米,设有30余个阅览室,日均可接待读者六七千人次。截止1998年底,馆藏文献已达2160万册(件),居世界国家图书馆第五位,并以每年60-70万册(件)的速度增长。 中国国家图书馆是综合性研究图书馆,是国家总书库。履行搜集、加工、存储、研究、利用和传播知识信息的职责。国家图书馆是全国书目中心、图书馆信息网络中心。研究和采用现代技术,在全国图书馆标准化、规范化、数字化、网络化建设中起到了骨干作用。 1997年10月正式成立全国图书馆联合编目中心,在全国范围内组织与管理图书馆计算机联合编目工作,共建网上联合目录,共享书目数据资源和文献资源。 从1995年开始,按照数字化、网络化建设的思路,制定了《国家图书馆网络建设发展规划(1997-2000)》,集中力量,在网络建设、软件开发、数据加工等方面开展攻关。 国图数字化图书馆的建设特色是馆藏内容多,馆面积大,同时还会成为信息资源的交易平台。 国图数字化需求分析 从我国目前的发展状况来看,印刷版书报刊的数字化,包括现刊和过刊,即将现在书报刊和过去书报刊的数字化是现在所要解决的主要问题。因为图书馆的三大馆藏是书报刊,包括一些学术论文。那么这三大主体馆藏基本上占了资源购置费的80%以上。如果把这三大主体资源数字化工作做完了,基本上可以说满足了80%的数字化图书馆建设需要。 关于版权,不管版权环境如何,图书馆数字化建设以前都要考虑并重视这个问题。国图信息中心副总经理王桂平先生认为重视这个问题的解决,就是出版商和作者授权都要解决,把这些问题解决好了以后,就能保证数字图书馆的建设顺利发展。国图数字技术有限公司的牛振东博士也表示,现在说数字图书馆的技术多种多样,但核心技术还是围绕着怎么样把电子排版的文件或者印刷版的图书录入到计算机里面去,实现数字化。实现方式无外乎就几种,一种就是直接录入、排版校对,这样成本非常高。还有一种方式就是用扫描,都做成图片,这种方式具有占用的空间大等缺点。 软/硬件基础设施建设 中国数字图书馆工程建设将拥有超大容量的分布式资源库群、超大规模并发用户的访问和全年365天、每天24小时面向全球提供服务等特征,需要稳定可靠、可扩展的运行系统,必须配置高性能的软/硬件基础设施给予保障。 这些基础设施主要包括大型高速交换机、路由器、光端设备、并行处理的高性能服务器、便于扩充的规模型集群系统、智能存域网系统,以及操作系统、高可靠性的信息安全系统、数据库管理系统和其他相关系统等。 应用系统开发 数字图书馆应用系统是实现工程健康、持续和不断完善的基础之一。它应是一类可扩展的知识网络系统,完成对知识和数字化资源的采集、加工、处理、存储、归档、组织、发布和利用(含版权保护)等全过程。这种系统要涵盖多个分布式的、超大规模的、具有可互操作的异构多媒体资源库群,通过互联网对国内外用户提供高效跨库、无缝连接的信息服务。 数字图书馆应用系统的开发将参照国际主流的数字图书馆研究及实现方法,符合下一代互联网的发展趋势,并按一种逐次发展的系统模式来组织。其中,对象数据库分布存放,元数据库相对集中,数据加工系统实现数字化信息及知识的采集、加工、处理、存储和组织,调度系统实现网络环境下对象数据的识别和统一调度,查询服务系统实现数字化信息和知识的发布和利用。对于一个用户请求,数字图书馆系统通过查询服务系统检索元数据库得到资源的标识,然后通过调度系统获取以分布形式存储的对象数据,最后通过查询服务系统提交给用户。 图书馆数字化技术挑战 数字图书馆涉及的技术领域很宽广,需要大量的技术突破作为支撑,例如基于内容的多媒体检索技术和智能化、个性化和自动化服务技术,这样数字图书馆的真正潜力才能发挥出来。建设数字图书馆我们至少面临着以下几种技术挑战: (1)海量信息资源建设问题 如何快速、有效、有序、合法地把包括历史资料在内的各种媒体资源数字化后放入数字图书馆,是涉及到技术、管理和法律等诸多方面的难题。其中,中文图书的自动录入将是最繁重的一个任务。 (2)存储与压缩问题 根据加州大学伯克利分校Peter Lyman和Hal Varian的报告,全球每年生产的信息量平均每个人250兆,这些信息的绝大多数以多媒体形态存在,印刷文档只占总量的0.003%。因此,如何有效地压缩、保存和方便使用这些海量数据,使得系统的成本不至于过高而且系统响应很快,是数字图书馆系统设计最需要技巧的环节之一。 (3)分类、索引和检索问题 (4)安全性问题 (5)用户界面问题 如何充分利用图形、语音及其融合技术,设计一个具有人性化、智能化的友好、直观、方便的接口,让中国用户得心应手,不仅需要技术突破,还需要大量实践的检验。 (6)信息表现问题 数字图书馆中的许多非文本数据都可以直觉化、可视化,可以用图像、图形、语音等直接表现出来。但是,如何让知识或信息的表现最有效,目前还没有很好的答案。 (7) 系统开放性问题 数字图书馆是一个集成各种数据资源和工具环境的大规模系统,因此系统的开放性是成功的必要条件。 联想服务器承担典型应用 目前国图数字化图书馆的应用主要还是面向传统图书馆的服务,如图书的采、编、检;图书流通以及读者借阅等。数字化图书馆的核心应用也大多集中在书目检索和信息存储管理这部分内容。因而,承担这两部分应用的设备,其稳定性、安全性和数据处理能力,将成为数字化图书馆建设中的重要问题。 国图的数字化图书馆作为全国数字化图书馆中最具代表性的一家,其书目检索和信息存储管理这两部分在设备选型中的要求和经验是非常值得参考和借鉴的。下面我们就来详细地了解一下这部分内容。 首先来看一下书目检索,在国图数字化图书馆中这部分应用是由联想万全4200服务器承担的,并安装了opak查询系统,以便接受来自互联网以及广域网内的全部查询,其任务相当繁重,因此作为支持后台应用的服务器,必须具有强大的数据处理能力、扩展性和通畅的数据通道。同时,为使使用者能够在任何时间进行书目检索,还要求服务器必须7X24小时连续开机,因此为保障系统连续工作,服务器还必须具备高可用性、高可靠性和易管理性。万全4200服务器可以说很出色地完成了这些任务。 接下来就是信息的存储管理,作为国家数字化图书馆,信息的复杂性和重要性都是不言而喻的,因此数据的安全很重要。就国家图书馆的业务来说,首先是办证数据的分类、管理、存储。读者在办证之后这些数据会传至阅览服务器,由于受到阅览权限的制约,每张阅览证都有自己不同的权限,因此,其复杂度更高,管理难度更大。其次是借阅信息的存储纪录,由于国家图书馆图书每天的借、还量大,因此对于服务器不仅要求设备可靠性高,而且数据的维护更为重要。国家图书馆选择了两台联想万全2200C服务器进行双机热备,同时还外挂磁盘阵列,来承担这部分工作,每天的备份数据容量高达5G。 可以说在以上两大核心应用中,国产服务器都很好地满足了国图数字化图书馆的应用需求,对于业务量和应用复杂度都远远小于国家图书馆的各省市级图书馆来说,在图书馆数字化的建设过程中,本着安全性稳定性与价格等方面的综合考虑,选择如联想为代表的国产服务器,不失为一种好的选择。 |
|||||||||||||||||||||||||