网格技术得以广泛应用在于它的标准化。一个非常重要的网格模型是开放网格服务体系结构(Open Grid Services Architecture,简称OGSA),它为网格应用提供一个公共的、开放的、标准的体系结构。全球网格论坛(Global Grid Forum,简称GGF)在2002年2月GGF4大会上首次提出OGSA,同年9月份成立了OGSA工作组。2004年6月份,GGF在GGF11上发布了OGSI 1.0草案,在2005年1月份正式发布OGSA 1.0。
网格技术发展趋势
OGSA是一种面向服务的体系结构(SOA),基于WS-Architecture,作为WS核心标准的特别应用。OGSA旨在定义网格所需要全部的基础服务(包括服务的接口、语义/行为以及服务之间的交互作用)。这些服务作为网格组件,能用于构建e-Science和e-Business所需的网格系统。这些服务彼此是对等和松耦合的。服务之间的安全调用将采用WS-Security,服务的通知和事件能力采用WS Notification (WSN)规范。OGSA的底层服务(网格实体层上)将遵循WS Resource Framework (WSRF)规范。
OGSI是OGSA的具体实现。2003年6月份OGSI 1.0正式发布。OGSI是将网格和Web Services技术结合起来,给出了网格服务(Grid Services)的创建、命名、生命期管理、监控、分组、交换信息所需的一种机制。2005年4月份Globus Toolkit 4.0发布。2005年8月份Globus Toolkit 4.0.1发布。
在GT4.0发布后,Globus联盟与CNRI合作,开始将CNRI的Handle系统应用到GT4.x中服务的标识和解析。
目前OGSI和GT4.x所实现的网格服务是对Web Service(WSDL1.1)的扩展。但这种扩展也引起很多置疑。OGSA研究人员正致力于将网格服务需求纳入未来的WSDL2.0中,并寻求使服务的互操作机制与WS Interoperability (WS-I)一致。
国际和国内很多网格项目也都在研究和开发网格平台、网格系统和工具,并应用到具体的应用领域。
CADLISgrid系统模型
网格型数字图书馆系统模型分为单馆模式和多馆联邦模式。
在单馆模式中,重点研究系统对海量用户的支持、个性化服务方式、关键模块服务网格化方式、关键模块的性能以及系统对硬件环境的要求(尤其是对集群技术和存储技术的要求以及集成方式)。
单馆网格型数字图书馆的参考架构分为六个模块组:网格模块组、资源管理模块组、资源发布模块组、资源服务模块组、用户管理模块组以及协调管理模块组。其系统模型如图所示。该模型还将进一步完善。
在多馆联邦模式中,重点研究在同一层次内的各个网格型数字图书馆之间的互操作和集成方式(包括资源同步模式、服务协同模式等),以及该层作为整体对外提供统一的服务模式以及对分布式用户访问支持方式和服务能力。
在多馆模式基础上,研究CADLISgrid公共服务平台的系统架构、平台中核心服务层的功能和构建方式、核心层对其他网格型数字图书馆的服务方式和服务接口、对分布式用户的管理和认证、对分布式资源的注册和认证等。
数字图书馆由一系列应用系统和数字资源组成。数字图书馆不仅要解决各个应用系统之间的集成,也要解决应用系统与各种异构资源与服务的集成。同时,数字图书馆之间也存在互操作关系。
CADLISgrid研究如何使这些系统和资源具备统一的接口以便于对外提供各种服务。为更好地实现异构资源与服务的集成以及数字图书馆之间的联合,需要定义统一的数据规范、接口规范和互操作机制。这些规范涉及元搜索(即联邦检索)、元数据采集与收割、数字对象交换、联合认证、远程数字对象访问、CALIS-OID解析、资源调度、协同咨询等。
针对建设要求,CALIS主持研究和制定了《中国高等教育数字图书馆技术标准与规范》,2005年4月又推出了增补和修订内容。CADLIS所有应用系统都遵循该标准规范。
在CADLISgrid中,针对网格型数字图书馆系统的构建、集成和服务方式,将对上述CADLIS技术标准规范中有关数据和接口的规范进行完善,增加对网格服务的支持,补充用于支持网格服务的数据和接口规范,改进和增加在网格服务基础上新的集成模式,增加新的协作方式,增加网格服务的注册、发现和路由等机制和规范。
通过资源的集成模块来逐渐积累本地数据资源,建立资源的元数据和数字对象信息,并建立索引。这些对象数据、元数据以及索引,通过CADLISgrid公共服务平台的数据服务(Data Services)进行存储和管理,并根据需要保持一个或多个副本在其它主机或其他数字图书馆中。还要研究各种服务的流程,如认证服务、门户服务、资源检索与发现服务等之间的流程。
主要功能、模块的网格化
资源与服务的集成需要研究建立根据逻辑应用体系整合数字信息资源和信息服务的集成应用界面,逐步支持对这些资源的横向整合检索和纵向流程整合处理;建立覆盖国内外重要跨学科专业信息资源、研究型教育资源和数字图书馆资源的规范导航系统,采取标准元数据可靠和深入地描述信息资源,采取规范知识组织体系对所收集资源进行组织和浏览;在核心开放机制上建立中心门户,建立开放的元数据描述,逐步建立开放的知识组织体系描述和信息架构描述,逐步支持开放界面、开放用户使用管理、个性化定制和开放式集成。
数字图书馆的存储内容包括文字、图片、声音、多媒体等,为了有效地管理这些海量资源,需要研究数据的分布式存储策略,包括图书馆内部的分布式存储,以及在网格环境下图书馆间的分布式存储,以增加系统的可靠性,并能更加有效地支持检索。需要研究数据服务副本的管理机制和管理策略(如副本一致性、时新性等)。
数字图书馆的数据(包括实体数据、数据索引、元数据以及元数据目录等),需要存储在大量异地、异构的站点中,因此应在CADLISgrid服务平台及其数据管理的基础上,定义网格型数字图书馆对数据管理的需求,提供对上述数据进行有效的访问、传输和管理。
分布式数字图书馆的互操作体系需要一个比对象模型抽象能力更强的应用构造模型。面向服务的体系结构(Service-oriented Architecture)正逐渐成为大型软件系统的主流架构,具有松耦合和易于集成等特点,能够构筑在传统的构件技术之上,是适应上述需要的新范型。网格的目的是实现资源服务化,把数字图书馆的所有功能都设计包装成Web服务。
CADLISgrid将采用OGSA体系结构,并以OGSI和Web Services标准为基础。鉴于这些标准也在不断完善,因此CADLISgrid的各个网格服务也会不断升级和完善。
针对CADLIS中已建成的各类应用系统,CALIS会逐步将对这些系统网格化:对门户系统的网格化,实现以新一代Grid Portal;对统一认证系统的网格化,支持GridAuthentication和Security;对计费系统的网格化,将各种资源与服务的收费机制与Grid付费机制相结合;对统一检索系统和其他检索系统的网格化;封装资源,封装ODL/Zing等检索协议,增加自动发现和调用机制;对分布式全文检索引擎的网格化,提高检索引擎的效率和在多机上的自适应能力;对参考咨询服务和馆际互借服务的网格化,改进和增加新的协作方式;对其他应用系统的网格化,使其纳入整个CADLISgrid中。
除上述内容,数字图书馆P2P结构的也是研究方向之一。P2P能够在各个数字图书馆之间共享数据,使得数字图书馆能够满足大量的在线访问请求,平衡各个节点的负载,避免以服务器为中心的网络结构的性能瓶颈。利用P2P技术,图书馆可以将经常访问的内容发布到其他的数字图书馆,读者可以就近访问。版权是采用P2P时候需要考虑的问题。对于一些具有版权的电子出版物,必须限制读者的任意的传播。方法之一是限制可以下载的数据副本。CALIS版权保护系统(DRM)在网格化中,将考虑对这种P2P服务的支持。
目前,CADLISgrid还处于研究和实验阶段。在确保技术可行性后再逐步将CADLIS所有系统进行网格化,推出新一代的网格型数字图书馆,分阶段将其应用和部署到CALIS的三级服务体系中,提高CADLIS服务质量,为高校教学和科研提供更好的服务。