最新
推荐
2014年高等教育信息化十大“关... 01-04 教育部成立教育信息化专家组 12-24
CERNET第二十一届学术年会 11-24 李志民:互联网促进人类文明迈... 11-15
|
构建三层框架 DRIS可简单描述为(组织级—常规数据库检索系统)—(主干网级—元数据采集系统)—(国家级—分布式检索系统),而其服务管理则采用了XML/Web Services/UDDI 的形式。基本结构如图1 所示。
图1 系统结构 整个系统分为三层:第三层为DNS的三级域,一般对应于某个组织机构,如一个大学;第二层一般对应于国家的各个主干网;第一层则对应于某个国家。 采用此基本框架,我们可以先在最底层下载网页数据,然后逐级传递到最上层的服务器上。由于网页的下载更新工作都在不同的底层节点进行,而这些节点一般又都对应于某个局域网,因而这种分布采集、逐层递交的方式可以保证整个系统的数据每天更新,这样更新率问题就得到了很好的解决。 但是按照这种方法,顶层的服务器数据存储量可能依然很大,我们就不得不采用分布计算等复杂技术来保障顶层服务器的数据存储和检索服务质量。要建立一个可以镜像整个Internet数据的系统几乎是不可能的,我们必须采用其他方式来完成此任务。 因此,我们首先对搜索引擎基本技术及当前具有代表性的几种信息检索系统和网页搜索引擎的两种基本算法进行介绍,并在此基础上对系统的基本思想进行具体的实现。 采用三种检索系统 根据新系统三个层次的具体特点,我们分别采用了不同的系统构架和基本算法,来构建一个更为高效的网页检索系统。我们按照从底层到高层的方式逐一介绍各层的搜索系统。 目前,大多数商业化网页搜索器和检索接口,利用两种基于词频索引擎的基本算法,都是基于集中式结构设计的,一般包括三个主要部分:网页下载器、搜索引擎和基于超链接分析的搜索引擎。 按照基本体系结构划分,目前已有三种不同类型的信息检索系统:基于传统数据库的集中式检索系统、基于元数据采集的检索系统和分布式检索系统。 随着数据源规模扩大和数据类型的增多,信息检索系统基本结构一般可依次选择常规数据库型、元数据采集型、分布式检索型。 |
版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com