ccidnet????

出版日期:2002-10-21 总期号:1161 本年期号:78

本期导读
要闻综合
中国信息化
网络与通信
软件与服务
产品与应用
渠道与市场
数字图书馆
华东专刊
华南专刊
西北专刊
数字图书馆现实与未来的融合

张成昱

  被高速发展的计算机和网络技术所启动的数字图书馆事业为图书馆现代化建设赋予了明确而具体的目标、内容和实施手段。近几年,数字图书馆的建设已经几乎成为图书馆现代化建设的代名词。

  数字图书馆这个概念从开始流行到现在不过十年左右的时间,而在国内成为图书馆界,IT业乃至整个社会的热点甚至焦点则只是近几年的事情。美国人在90年代初提出这个概念是出于为高速宽带互联网进行应用准备的考虑。因此,数字化图书馆是作为驱动多媒体海量数字信息组织与互联网应用问题各方面研究的技术领域而被纳入美国的信息高速公路计划NII的。同样,在国内的数字化图书馆研究界,IT技术出身的研究者也往往倾向于把数字化图书馆看作一个IT技术的应用子集,认为它其实与图书馆的关系远不像名词使用上显示的那样紧密。

  然而把digital library一词翻译成“数字化图书馆”而不是“数字化资料库”这个可能有些偶然的事实,给了图书馆界一个不可多得的机会,使图书馆的未来发展与数字化图书馆技术的发展紧密地联系起来,把图书馆界多年来在自动化,电子化方面的努力纳入数字化图书馆技术发展的运行轨道。达到这一点,不仅确立了图书馆界在数字化图书馆技术和理论研究上的主导地位,也为数字化图书馆技术的发展提供了厚实的应用和需求基础。


  国内外发展现状


  美国一直在数字图书馆的发展过程中处于领先地位。数字图书馆作为“高性能计算和通信计划(HPCC)”(由美国自然科学基金会[NSF]和国防部主持)的子课题“信息基础技术应用(ITTA)”中的挑战性课题得到政府的大力支持。

  1994年NSF联合美国国防部高级研究计划署(DARPA)和美国国家宇航局(NASA)共同支持了“数字图书馆研究(Digital Libraries Initiative, DLI)”项目,其中DLI-1分别由美国六所著名大学承担。

  斯坦福大学重点研究Internet上异构信息源的互操作问题,制定了Infobus协议,为多种服务和信息源提供一致性的访问接口。卡内基-梅隆大学的视频数字图书馆原型Informedia建立了包含1000小时数字视频、音频、图像和文本的多媒体库,并引入自然语言理解、图像理解、语音识别领域的研究成果来自动地为库中的信息材料建立完全基于内容和知识的检索。加州大学伯克利分校的工作包括对图像库中的图像进行基于内容的分类和检索,对WEB进行自动的分类和检索,也对文档识别、数据库索引和访问协议、分布式搜索等的研究。加州大学圣巴巴拉分校致力于解决建造有关地质空间多媒体信息的分布式数字图书馆的关键问题。康奈尔大学的数据库系统组和数字图书馆研究组合作开发一个能够存储和检索各种数据的系统。研究重点是分布式数字对象知识库的体系结构和分布式资源的查询。[1]

  DLI的第二期,即DLI-2,改变DLI-1以IT领域的开发人员为主导的倾向,开始注意IT和图书馆的合作研究。

  除美国之外,法国、加拿大、英国等西方国家也制订并大力实施各自的数字图书馆计划。

  与此同时,国内数字图书馆建设在政府和社会的支持和关注下也有了长足的发展。

  CALIS(中国高等教育文献保障系统)是经国务院批准的我国高等教育“211工程”总体规划中两个公共服务体系之一。作为国家经费支持的中国高校图书馆联盟,CALIS的宗旨是在教育部的领导下,把国家的投资、现代图书馆理念、先进的技术手段、高校丰富的文献资源和人力资源整合起来,建设以中国高等教育数字图书馆为核心的教育文献联合保障体系,实现信息资源共建、共知、共享,以发挥最大的社会效益和经济效益,为中国的高等教育服务。[2]

  中国数字图书馆工程是由国家图书馆主持的国家级数字资源系统工程,涉及信息资源加工、存储、检索、传输和利用的全过程,是国家信息化建设不可缺少的重要内容,是知识经济的重要载体,是一项跨地区、跨部门、跨行业的宏大的民族文化工程。[3]

  “中美百万册”数字图书馆全称为中国教育科技数字图书馆,是由美国卡内基-梅隆大学教授Dr. Raj Reddy博士和西蒙学院陈刘钦智博士、中国科学院研究生院常务副院长高文博士共同发起的,旨在建设面向教育和科研的包含100万册图书的数字图书馆,其中中英文书籍各50万册。[4]


  从技术热点推测未来


  技术和理论是数字化图书馆建设的基础。从另一个角度来说,社会和业界对某个技术或理论的关注程度,很可能表明了某种需求的强烈程度。

  适应性技术是用来帮助具有视觉、听觉或运动障碍的残疾人通过计算机和网络利用各种信息资源的相关技术,包括各种特殊输入方式(如语音输入等)、朗读系统、屏幕放大技术、词语预测技术等。适应性技术受到关注表明社会各种特殊人群对数字化图书馆也具有巨大的需求,满足这种需求的愿望和实践体现了国家文明的程度。

  宽带通信是连接图书馆、读者和分布式的信息资源的信息通道,它既包括Internet 2、IPv6 等主干网络技术,还包括利用电话线、电视电缆和卫星设备等实现的宽带入户技术和WAP、蓝牙等支持移动通信的无线网络技术。实现宽带通信方式的多样化反映了读者希望突破地理位置限制,自由地获取信息的需求。

  版权问题是一个跨越技术和非技术领域的交叉性课题,也是在网络环境下强烈制约着信息资源的建设、利用和发展的因素之一。我们需要一个既可以保护资源生产者权益,又有利于信息事业全面发展的法律框架;同时我们还需要发展实现版权保护的各种技术手段,如访问控制、数字水印和加密技术等。版权问题反映了人们对调整数字化图书馆建设(尤其是资源建设)过程中利益分配的机制的需求。

  电子图书继承了印刷型图书在信息资源中的重要地位,成为目前乃至今后相当一段时间内主要的电子化信息资源之一。它所涉及的研究领域包括技术方面的,如数字化制作技术(OCR和图像扫描)、电子图书标准的制订(PDF、OeB和TEI等)、基于内容的检索技术、可持式阅读设备等,以及非技术方面的,如版权保护、电子商务等。电子图书既体现了对传统出版物进行数字化的需求,还体现了在电子资源应用过程中,各参与方希望自身权益受到合理保护的需求。

  电子纸和电子墨:电子纸是用特殊材料制成的厚度接近纸(小于1毫米)、可折叠的电子显示设备;电子墨是一种通过涂抹在各种质地的薄膜(如纸、塑料、金属等)上使之成为电子显示介质的材料。这两种技术的共性在于它们使电子显示设备具有传统纸张的优点:易辨认、灵活有弹性、便携性、重量轻等。这说明人们在利用数字化信息资源时,既要获得数字化带来的好处,又希望保留传统信息使用模式和习惯。

  工效学又称人类工程学或生物工程学,是通过研究人、设备和环境的关系,实现人在工作、学习和生活时健康、舒适、安全和高效的一门边缘学科,包括人机工程、工作环境、生物力学、人体测量、安全工效学等分支。对于工效学的关注体现了人们需要在一个方便、舒适和安全的环境中获得信息和利用信息,它说明人们对信息服务质量的要求不再局限于信息的内容,还包括人们获得信息的过程。

  信息技术素养问题是随着信息技术应用的日益普及和重要而产生的,信息技术素养既是信息用户利用电子资源的必要基础,也是图书馆员工素质的重要组成部分。

  元数据不仅仅是用来描述Internet数据和资源的,一切数字化对象都必须通过某种元数据格式才能访问、利用和操作。因此对于元数据的研究最终需要结合特定的数字化对象来进行。目前元数据研究是图书馆介入数字化图书馆建设的主要手段之一,它反映了信息中介机构以什么方式收集、组织、整理和表达信息资源的基本需求以及读者以更充分的方式利用数字化资源的需求。

  对等计算和对等网络,简单说就是计算机系统间通过网络的直接数据交换实现计算机资源和服务的共享,这些资源和服务包括信息交换、处理能力、高速缓存、备份设备和文件磁盘空间等。对等计算环境具有可以降低计算成本、提高可扩展性、便于工作组间的协调和分布式计算等优点。对于对等计算技术的关注反映了数字化图书馆对于高效率、低成本和高可靠性的基础技术环境的需求。

  普遍性计算是一个与虚拟现实相反的概念,普遍性计算的研究涉及计算机和网络设计的几乎所有方面,如硬件(芯片)、网络协议、交互界面、应用程序、隐私保护和计算方法等,可能导致计算机体系结构的巨大变革。这同时也体现了数字化图书馆在应用方面读者的类似需求。

  回溯转换是指在信息系统的升级或切换中,源系统数据向目标系统的转换过程。这一转换一般利用中间格式,如MARC等,加以过渡。回溯转换体现了在数字化图书馆资源建设过程中人们对已有资源加以继承并充分利用的需求。

  XML正在越来越有可能成为数字化文献进行存储、交换和应用的基本通用格式[1]。作为一种结构简洁(比之SGML)、功能完备、使用灵活的置标语言,XML很可能取代MARC成为一些文献服务系统的信息存贮和交换格式。同时,XML与CSS和DTD一起可以构成一个完备的文献表示、存贮和操作的标准体系。业界对XML的关注体现了数字化图书馆资源建设中对统一的文献格式的需求。

  Z39.50尽管有些苍老,但仍充满活力。目前国内外大多数书目管理系统都在不同程度上支持Z39.50协议,这使得针对书目信息的跨平台联合检索更加容易实现。但Z39.50的过于繁琐可能阻碍它进一步成为开放互连环境下各种信息资源的查询和检索的统一标准,事实是尽管很多系统都声称支持Z39.50,但往往支持得并不充分。无论如何,建立一个公认的信息检索协议仍是满足数字化图书馆实现异构信息源互操作的捷径之一,对Z39.50孜孜不倦的关注表明了需求跨平台检索功能的强烈程度。

  开放(源码)系统在图书馆系统软件开发方面可以提供一些帮助,比如支持Z39.50的Server和Client端程序(YAZ)、SiteSearch等都可以通过网络获得免费的源码。我们既可以在开发中直接利用这些源码,也可以在开发思路、算法上加以借鉴。对开放源码的关注说明了数字化图书馆建设对于软件系统开发环境的需求。

  需求最终将决定未来图书馆的面貌。但现在当我们试图提出一些建设数字图书馆的具体项目时,我们不仅受到技术发展水平的限制,还受到我们自己想象力的限制。我们无法肯定今后5-10年IT技术会发生哪些令人瞠目结舌的变化,我们只能肯定这些变化必然会发生。但这并不表明我们的规划没有意义,它只是要求我们在相对固定的大框架下,不断根据实际调整具体的项目和相应的实施方案。从这个意义上讲,建设第三代数字化图书馆不是一个项目,而是一个没有明确终点的过程。

  对于数字化图书馆的需求最初可能需要培养,但最终会成为其发展的最具决定性的动力。最后,建设数字化图书馆的过程不是一个逐渐遗忘传统图书馆的过程,而将是一个逐渐记起传统图书馆的过程。

  [1] 高文、刘峰、黄铁军.数字图书馆:原理与技术实现.北京:清华大学出版社,2000.10

  [2] http://www.calis.edu.cn/

  [3] http://www.nlc.gov.cn/newpages/dlibrary/stxtgc.htm

  [4] http://lib.zju.edu.cn/guojihezuo/xiangmu.htm




  数字图书馆三代历程


  我们把以基于MARC的图书馆书目管理系统为核心特征的图书馆自动化建设称为第一代数字化图书馆建设。国内第一代数字化图书馆在80年代中晚期到90年代初期渐具规模,它通过对图书描述信息进行数字化并加以运用,满足了图书馆对于业务管理自动化机制的需求。基于Web的OPAC系统体现了第一代数字化图书馆的技术和应用潜力被发挥到了极致。第一代数字化图书馆的主要不足在于它只能针对纸本图书提供指引性信息,而不提供其它电子化二次文献,更遑论电子化的一次文献了。

  所谓第二代数字化图书馆是以对大量通过Internet提供的分布式电子文献信息资源的应用为主要特征的,目前国内电子化图书馆建设比较成熟的图书馆大都属于这一代。第二代数字化图书馆以电子化和网络化的一次、二次文献为基础,通过提供包括全文检索在内的高效而便利的信息利用技术,满足了读者迅速、准确和方便地获得信息的需求。在一定程度上,第二代数字化图书馆还实现了不同类型信息资源的统一利用和基于内容的信息链接功能,并且针对特殊的信息资源需求,实现了多种模式的信息数字化机制。第二代数字化图书馆的主要不足首先在于它还无法充分满足读者在网络环境下对个性化和主动性信息服务的需求,或者说,第二代数字化图书馆的信息服务机制还不能把网络的优势完全发挥出来;同时,在第二代数字化图书馆中,人们还缺乏对庞大而混乱的网络信息世界进行有效地整序的能力。这种状况既限制了读者获得信息的质量,又使信息应用的效率得不到保障。

  第三代数字图书馆目前可能还只存在于想像或规划之中,除了一些简单的描述之外我们还无法给它下一个明确的定义:

  ● 它是以一个无所不在的分布式的网络和计算环境为技术支持和应用基础的。

  ● 它具有对于海量的、多媒体的信息资源进行制作、组织、存储和发布的能力。

  ● 它可以针对不同需求的用户群体提供主动的、个性化的终极信息服务。

  ● 它与其它异构的信息提供系统可以无缝地组成统一的信息服务视图,提供跨平台联合检索服务。