全新信息检索系统：DRIS分层检索资源

http://www.edu.cn 　 2011-02-28 中国教育网络作者：江玲王亮

CERNET第二十一届学术年会 11-24　　李志民：互联网促进人类文明迈... 11-15　　

　　第一层：分布式检索系统

　　第一层将构建覆盖一个国家范围的网页搜索引擎，如果依然按照第二层那样将全部的网页元数据进行集中存储，那么可能要存储上十亿张网页数据，系统设计依然比较困难。由于第二层的节点一般对应于一个国家的主干网，数目较少，因此可以考虑将第一层的搜索系统设计成分布式检索系统，那么系统将只有检索接口，而没有Spider，也没有索引数据。

　　设计分布式检索系统一般要解决三个主要问题：

　　1. 基本的数据传输协议，如TCP/IP

　　此系统中以SO AP 协议为技术协议，SOAP协议基于HTTP协议而设计，但在安全性等方面都有较大的改进。

　　2. 子系统和主系统的具体的数据交换协议，如数据结构、检索语法等

　　系统的检索协议设计以Web Service为基础。Web Service以SOAP协议为基础建立了一种高效的分布式系统框架。在设计协议时我们参考了SDLIP 和Google 的Web Service检索服务，用来定义相应的数据格式和检索语法等。此方法要求在第二层的节点提供统一的Web Service检索服务，而在第一层对这些检索服务进行索引。

　　3. 从子系统获得检索结果的合并方式

　　结果合并的关键依然是排序问题。在第二层中，我们用数据采集中网页重复的次数当作网页的排名权值，而在第一层依然采用此方法，在执行并行检索时只要把同一个网页在各个子系统的排名值简单相加即可得到一个最终的排名权值。

　　第三层的搜索引擎工作原理同元搜索引擎基本一致，没有自己的网页数据库，而仅索引其他搜索引擎的检索接口。但在此系统中，各个子系统都严格遵循一个相同的协议，而且组织有序，因此性能要比现有的元搜索引擎优良。此层的搜索引擎将提供一个国家范围内的网页搜索，这已经是本系统的最高级，而由于语言的差异，它已经基本覆盖了大部分的检索请求，如果确实要进行多个国家范围的并行搜索，只要设计一个简单的系统，调用多个最高层检索接口即可。

　　为用户分配适合的搜索引擎

　　由于新系统的每一个节点都是完整的搜索引擎，因此，怎样使用户能够找到需要的搜索引擎是系统应用的关键。我们一般采用面向对象的模型对系统进行描述，这里我们也利用此模型来描述此系统。我们为其选择一个基本的命名空间“DRIS”，整个系统的类树如图2所示。

图2 面向对象模型

　　所有的系统节点都位于命名空间“DRIS”下，并被视为子类。这些子类及其实现都在不同的服务器上实现。为了方便
　　使用和管理整个系统，我们定义了几个基本规则：

　　1.所有的节点都通过标准Web Service的形式提供检索服务。

　　2.所有的检索服务都按照“继承”的关系进行组织，但这种关系的实现和标准的面向对象模型略有不同。低层的节点通过引用高层节点的Web Service的形式进行继承。而对高层节点来说，其各个子类都位于不同的服务器上，高层节点并不知道其子类，因此将有一个专门的模块用来索引低层节点的检索接口。

　　3. Web Service通过URL链接来提供服务，对用户来说如何发现相应搜索引擎服务的链接是应用中的关键问题。例如，我们要寻找一个高校的网页信息检索服务，那么就必须找到它的URL。如何做到呢？我们对搜索引擎服务器的位置进行规定，即每个DRIS服务器都通过链接“DRIS.域名”向外提供标准Web Service检索服务，而此服务器上Web Service的主类名为“DRIS.反顺序域名”。如华中科技大学的域名为“hust.edu.cn”，则DRIS服务器通过链接“DRIS.hust.edu.cn”向外提供校内各种资源的检索服务，此服务的主类名为“DRIS.cn.edu.hust”。在新系统中，域名不仅起到DNS中的“导航”作用，而且是资源集合的一种“标识”。

　　系统提供互联网不同范围的标准信息检索服务，这将为一些个性化信息检索系统提供高质量数据源。这些个性化搜索系统可以根据用户的兴趣爱好等信息自动选择合适的数据源并按照用户需求对检索结果进行相应的整理。由超链接分析等得到的排名权值仅作为一个参考值，检索结果的最终排序会根据不同用户的实际需求信息进行调整。基于DNS的网页搜索引擎将为此类研究提供一个高效的基础数据平台。

　　DRIS在覆盖率、更新率以及检索结果的准确率等方面都较现有的搜索引擎有较大的改进，同时整个系统设计都基于比较成熟的技术，可以满足用户的需求。

　　(作者单位为华中科技大学图书馆)

（文章来源：《中国教育网络》杂志2011年1月刊）

首页上一页 1 2 3 4

页面功能　【打印】【关闭】【我有话说】