最新 | 专题 | 理论研究 | 信息技术 | 网络建设 | 应用案例 | 解决方案 | 企业解读 | 教育产品 | 教育网络 | 分析报告
  当前位置: EDU首页>教育信息化>信息化应用>应用俱乐部>软件应用
数字图书馆的体系结构与元数据方案
http://www.edu.cn 2006-11-08 15:42:00 作者:

    元数据是关于数据的数据,在数字图书馆中它提供完整的数据描述形式,为分布的、由多种数字化资源有机构成的信息体系提供规范、普遍的描述方法和整合工具与纽带,是广泛分布的数字图书馆资源站点具有充分的互操作 性和可扩展性的基础,是提供数字图书馆中资源描述、资源发现、资源处理、资源评价与排序以及资源的人机交互和理解的基本要素,它还承担向数字图书馆中高层协议中间件提供标准数据访问接口的功能。

    互联网上的所有应用都是建立在协议标准的基础之上,随着互联网向语义网络(Semantic Web)发展,网络将不再仅仅提供简单的通讯平台,而能够通过规范的语义表达,达到机器之间的理解和人机交互,从而更好地为人们共享知识、交流思想服务。这也正是数字图书馆所要实现的目标。许多新的、基于人类认知和语义的协议将被引入到网络中来,这些协议的基础就是元数据,各学科和应用领域都会产生大量的元数据、元语言以及语义“本体(Ontoogy)”方案。数字图书馆将成为网格计算的一种重要服务。

    目前的“元数据运动”呈现百花齐放之势,一些方案试图将元数据统一到只有一种或几种,但在开放环境中这种努力看来将是徒劳的,任何“标准”都不可能解决所有问题,数字图书馆元数据方案的设计必须正视这个现实,应该在更高的层次上探索并解决各种方案的并存、互操作问题。

    本文第二部分探讨了数字图书馆的体系结构及其常见的几种实现方案,分析了元数据在其中所起的作用。第三部分介绍了目前国际上应用较为广泛的几种主要元数据方案的设计思想和国内的一些做法,并分析了这些元数据方案的不足和设计的缺陷。第四部分重点提出了改进方法并讨论未来的发展方向

    二.数字图书馆体系结构

    数字图书馆不是Web,但是数字图书馆根植于Web,起码现在看起来如此。Web通过UR定位服务器地址,通过超文本传输协议http将htm文件连接成一张大网,通过MIME协议把各类文件交给客户端自行处理,通过CGI、SQ提供结构化数据的发布,通过ASP、JSP等实现动态管理和更多功能。然而人们希望Web是大型连锁超市而不是杂货铺。人们希望Web这张大网直接连接数字资源而无需通过服务器地址,于是引入统一资源名URN系统(RFCs 2141 & 2168);人们希望htm文件能蕴含更多的“结构”和“关系”,而不仅仅是关于显示和链接,于是引入了XM;人们希望电脑能够“读懂”XM中的特定内容,在人们得到信息之前,机器之间已经进行了成千上万次交互,经过选择、匹配、汇总、过滤,把人们真正想要的东西,按照人们想要的形式呈现出来,于是引入了RDF,一种资源描述语法,以及WO,一种知识本体的定义语言。

    数字图书馆是一个交叉研究领域,目的是解决分布式环境下的数字资源对象的组织、访问和服务问题。为此必须在微观上定义数字对象的组织结构,在宏观上解决信息仓储的组织问题,同时允许这种结构与资源的语义内容分离,支持独立或分层的索引、馆藏(coection)、名称、仓储(repository)、网关、用户界面等服务。

    Kahn和Wiensky在奠定数字图书馆概念基础的论文[①]中阐述了数字对象的微观结构(见图一所示),认为数字对象由数据和键元数据组成,键元数据中最重要的是句柄,句柄系统构成数字图书馆宏观结构的基础,数字对象的句柄解析是数字图书馆的最基本的服务。在这个结构中作者没有进一步讨论元数据的组成和结构。后来Bi Arms等人对这个结构进行了较为详细地解释[②][③]。为了具体应用,Corne大学曾以Warwick框架诠释这个结构[④],使之成为能够动态表达元数据与数据之间关系(DAR: Distributed Active Reationship)的模型,后具体应用到该校的FEDORA方案中,初步设计了满足互操作、永久保存、版权管理等功能的对象包结构——“篮子(bucket)”,并影响到目前正在进行中的Prism、OAI等项目。

    现实的网络世界中数字资源以各种各样的形式存在,数字图书馆必须首先确立基本组成单位的逻辑结构,把万千变化的数字资源包裹成数字仓储中具有特定结构的数字对象,才能为数字图书馆所管理和利用。数字图书馆的每一项功能,在数字对象的结构中都隐藏有特定的“基因”,不可能存在例外。由于目前的现实系统复杂多样,造成数字图书馆宏观结构的丰富多彩。一个灵活、清晰的数据模型和系统结构决定了数字图书馆的普适性、可扩展性、互操作性和运行效率。

    从宏观上看,数字图书馆类似于建筑在各类系统之上的,由众多高层协议中间件构成的服务系统。用户访问网关负责向用户提供查询界面,处理用户的提问,然后将用户的提问进行语义规范和语法转换,选择合适的馆藏服务,并对返回的命中根据相关性、资源类型、数据格式等进行过滤、排序或做其他显示处理,整个服务过程无不依赖元数据。馆藏服务提供虚拟馆藏揭示和浏览,可动态提供数字图书馆的用户视图,集中体现了数字图书馆的信息整合与服务整合功能。虚拟馆藏一般是基于知识内容进行组织,离不开对于资源内容进行描述的元数据方案以及建立在这种方案之上、定义规范语义之间相互联系的“知识本体”。索引服务直接对元数据进行索引,有时高层索引服务可以很简单,可以作为实现库存取协议RAP的一部分,与句柄服务同时提供,支持动态映射和分布式访问,而将复杂和特殊的元数据索引传递给各资源库或自治站点自行解决。理想的资源库(repository)服务很简单,提供满足数字图书馆微观结构的数字对象“包”的逻辑存储,可以由RAP进行调用即可。然而现实世界中这一块最复杂,其物理实现暂且不说,如何将目前互联网上的异构的、复杂多样的资源以一种灵活的、可扩展的形式“打包”成数字图书馆的资源库,是一件颇费思量的事情,这其中的核心问题就是互操作问题,而互操作问题在很大程度上必须通过适当的元数据方案来解决,目前有许多实验系统专注于解决这个现实问题,这个问题不解决,数字图书馆很可能成为空中楼阁,或互联网上的另一类孤立系统。

    随着XM、RDF等新技术的成熟和普及,人们对技术发展趋势的把握比数字图书馆刚刚提出的近十年前要准确的多,对需要解决的问题和解决问题的方法也有更清晰地认识,这种认识往往更简单一些。简单性对于数字图书馆来说其重要性常常不亚于开放性。早期DI1(数字图书馆先导研究计划第一期)的一些项目如果放在今天的技术背景下进行研究开发,应该能够更加实用,并更有成效。DI2继续资助的一些项目已经结出了丰硕的成果,不管是从技术上进行的探索还是在网上已经提供服务的一些实验系统,例如SMETE、NCSTR、CD、OAI等。

    斯坦福大学的Infobus方案并不关心数字对象是否遵循Kahn/Weinsky结构,只专注于实现异构系统的互操作,提出了多达5层的独立服务:互操作层DIOP、元数据结构层SMA、搜索协议层STARTS、通用支付接口UPAI和可互操作的权限管理框架FIRM,为在现有技术环境下实现数字图书馆进行了全面的探索,提供了一整套复杂的模型,这些模型是否能够得到很好的应用尚属未知数,但其中的许多思想影响着以后的很多项目。

    康乃尔大学虽然没有在DI1项目中主持项目,但其对于体系结构的研究也同样著名,由其主导、数十个研究机构参与开发的OAI体系结构是目前最具开放性和可操作性的数字图书馆模型,它重新设计了数字图书馆资源采集、获取、组织、发布、检索的应用流程,专注于建立站点之间共享元数据和资源内容的机制,定义了“数据提供”和“服务提供”两类角色,省略了很多难以控制和管理的技术细节,在某种程度上可以看成是数字图书馆时代的Z39.50协议。

    三.元数据方案及其现存问题

    元数据方案的设计取决于人机两方面的因素,这是由于元数据本身就是起到人机交互的桥梁作用。“人”的因素包括使用者和系统开发人员两个方面,使用者因素即是要求揭示文献的内部特征,这些特征是为特定对象所使用,元数据方案必须能够满足这些揭示需求;来自系统开发人员的需求主要体现在管理型元数据方面,这些内容常常不需要提供给使用者,但在提供系统某些使用者要求的功能时会用到这些元数据。“机”的因素体现在元数据的表达、语义及语法规范等方面,以及元数据的作用机制,完整的元数据方案必须定义这些问题。

    元数据方案即提供数字图书馆数据模型的基础。从前文讨论的数字图书馆体系结构的角度来看,完整的元数据方案,应该定义以下内容:

    资源描述型元数据方案,完整揭示数字资源的内容属性,包括特定知识域的核心元数据元素集、扩展集、限定方案,包括完整语义定义、关系、数据类型以及重复、可选的规定等。

    管理型元数据方案,包括对数字资源外部属性的描述,例如格式、类型、分辨率等等,常常作为内容描述的补充。

    元数据置标方案,亦即怎样“使用”元数据,以SGM/XM/DTD/Schema/RDF等,给出命名空间。

    资源站点的元数据方案,对于资源站点的描述,包括各类站点相关属性的标注,例如知识领域、站点能力、提问格式等。常用于开放式数字图书馆资源站点的注册,经过注册后其他查询服务可以通过规范的服务接口直接访问其中的数字资源。

    元数据体系映射方案以及知识本体联系,这是元数据服务的一项重要内容,提供不同元数据体系间的动态映射、自动映射等,接受索引服务、查询服务等其他服务的调用,并支持资源站点在知识本体层次上的联系,以使系统能够动态地转发用户的查询请求。

    元数据著录方案,定义关于元数据的元数据,如何进行元数据的标注等。

    技术实现方案,包括定义对象包结构,内部存储方式,索引方式,元数据抽取方案,结构化转换方案等等。

    早期的元数据研究多注重满足单一资源网站的建设的需要,即便是分布式的多数据库的应用,也只需要为系统提供一套平面的、静态的资源描述框架即可,例如MARC、DC、EAD、TEI等等都是这样(参见表一),所不同的有些仅仅定义了数据元素,有些还定义了置标方式、交换格式等等。国内目前的一些元数据方案主要也是这样,做得比较好的已经开始从方法论的角度认识元数据方案,确立元数据的应用主体、目的、功能要求等等[⑤]。

    这种方案可以满足数字图书馆对元数据的基本需求:提供一套尽可能规范的属性描述体系(主要是内容描述),但随着研究的深入,这种方案的缺陷也逐渐暴露出来:

    1. 不具有普遍适用性。特殊性与一般性的矛盾与生俱来,无法克服;

    2. 难以实现元数据方案本身的进化,数据元素定义的含糊、矛盾无法克服;

    3. 难以对不同知识体系、不同“粒度”的资源进行描述,以及实现语义联系;

    4. 缺乏对数字资源的整个生命周期的描述;

    5. 缺乏对版权属性的描述机制;

    6. 缺乏灵活性和可扩展性,增加了互操作的难度;

    7. 停留于信息集成,无法满足数字图书馆服务集成的需要;

页面功能 【字体:   】 【打印】 【关闭我对此感兴趣
相关链接
·数字图书馆中图象信息的处理和存储
·数字图书馆建设中知识产权保护问题刍议
·数字图书馆的数据库权利保护
·数字图书馆发展建设中的管理问题
·数字图书馆信息资源建设中知识产权问题
·数字图书馆建设中的法律问题
·论数字图书馆信息资源建设与著作权保护
·关于我国数字图书馆建设问题及对策的思考
·浅谈数字图书馆及数字图书馆建设的意义
·数字图书馆建设发展形势的企业图书馆
中国教育和科研计算机网版权与免责声明

①凡本网未注明稿件来源的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的 媒体、网站,在下载使用时必须注明"稿件来源:中国教育和科研计算机网",违者本网将依法 追究责任。

②本网注明稿件来源为其他媒体的文/图等稿件均为转载稿,本网转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者 在两周内速来电或来函联系。


要闻回顾
·第8届高交会开幕 CNGI-...
·浪潮高校论剑 尽显国产...
·湖北省将启动“高校数...
·国际教育信息化技术标...
·甘肃会宁远程教育覆盖...
·数字化颠覆图书馆传统...
·新时代学习方式 即时远...
·三星谈教育行业硬件采...
·北京交大建成国内首个I...
·如何保证现代远程教育...
 
—热门关键字—
 
ERP CRM 局域网 电子商务

 天网搜索 :
 
 站内搜索:
 


版权所有: 中国教育和科研计算机网 Copyright©1994- CERNIC CERNET  京ICP备020072
关于假冒中国教育网的声明 | 有任何问题与建议请联络: Webmaster@staff.cernet.com