随着开源软件被数字图书馆所接受和信赖,许多大型的数字图书馆项目都将开源软件的应用作为一个首要的选项,在数字图书馆的很多关键部分应用了开源软件。这里是美国国家科学数字图书馆(NSDL)、加利福尼亚数字图书馆、IIPC(国际Internet保存协会)等多个数字图书馆中开源软件的应用情况。
NSDL 转向基于Fedora框架的数字图书馆
NSDL(美国国家科学数字图书馆)是美国国家基金会(NSF)每年投入2000万美元的、一个针对STEM(科学、技术、工程和数学)研究和教育领域的数字图书馆项目。这一数字图书馆收录了从100多个资源集中精心挑选出的100多万条联机STEM资源。为了描述和揭示这些资源,NSDL建立起了一个庞大的元数据仓储,存储从其他资源集中收割来的元数据信息。
NSDL于2002年上网服务,2004年NSDL 1.0版本最终完成。NSDL 1.0采用Oracle数据库构建元数据仓储。NSDL研究开发者发现,虽然Oracle数据库足够支撑100多万多信息资源的有效存储和检索,但是基于Oracle的数据模型不能有效揭示资源之间的层次关系,反映数字资源之间的内在联系。他们提出,数字图书馆除了应当向Google一样提供一个统一的检索入口之外,还需要提供上下文相关的组织机制,实现内容的聚合、知识的集成、信息的重用、信息的转换和协作交流。基于以上考虑,NSDL研究开发者最终决定,放弃目前最优秀的商业数据库系统Oracle,转而实现基于开源软件Fedora的NSDL数据仓储方案。
CDL 用开源软件构建数字保存仓储
加利福尼亚大学数字保存仓储(DPR)是加利福尼亚大学图书馆(CDL)数字保存计划的基础。DPR是支持对数字对象长久保存的一系列服务,它将在授权用户和可信赖的、长期存储系统之间提供受控的、有序的保存和利用机制。
为了提高开发效率,并且节省成本,数字保存仓储基于公认的标准,并建立在当前已有的一些系统之上,DPR实现了数字保存仓储的最基本功能如摄取(采购)、持久管理、存储和内容存取。在这一系统的设计中提出了存储服务网格的概念。存储服务网格中的每一个格子中都是一些带有附加存储的低成本计算机,这些计算机和它的存储形成一个小的、统一的物理框,这些框能够被叠堆起来形成一个大小适中的机器房。这些网络中的“格子”与数据库服务器相连,形成一个协调一致的存储单元。实际上,在这里数据库服务器相当于一系列数字对象和它们的保存仓储之间的网关。
在底层存储设计上,DPR基于SDSC (San Diego Supercomputer Center)的开源系统SRB (Storage Resource Broker)而开发。SRB容易扩展,支持分布式的仓储体系,不仅能够帮助数字保存仓储实现低成本的保存需求,而且能够实现对存档数据的异地复制。例如当一个UC Library站点上的新数据被摄入之后,SRB能够自动将相应的数据摄入到其他复制站点之上。
数字保存仓储基于Java开发,除了SRB之外,它还利用了多个开源软件。例如,利用JARGON提供的SRB Java接口,利用Shibboleth进行用户认证和授权,利用MySQL实现数据管理等。
IIPC构建基于开源软件的Web存档方案
国际Internet保存联盟 (IIPC) 成立于2003年,是由一个12个国家图书馆和Internet档案馆组成了的联盟。IIPC的目标是通过国际间的合作交流,建立起Internet信息资源的获取和保存机构,并且使这些资源能够在未来足够长的一段时间之后仍然能够被人利用。IIPC的一项重要工作就是支持开发和利用通用的工具、技术和标准,来构建全球的Internet存档。
为了实现大规模的Web存档,IIPC提出了一个包括摄入、存储、存档、内容管理、存取访问、检索查询在内的Web存档架构。并且通过相关的工具软件来实现Web存档的相关功能。为了保证实现大规模Web资源的长期保存,IIPC对于工具的选择有着较高的要求,例如这些工具需要能够支持大规模的资源保存、需要遵从IIPC提出的标准规范、需要具有“兼容性”,能够被嵌入到一个更大的环境之中。通过长时间的研究分析和实际应用,IIPC提出了一个基于开源软件的Web存档方案。
(本文由中国科学院文献情报中心张智雄提供)
来源:《中国教育网络》2009年5月刊
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。