中国教育和科研计算机网
EDU首页 |  中国教育 |   高校科技 |   教育信息化 |   CERNET
教育信息化

资讯 | 专题 会议 观点 专栏 访谈 企业 产品 CIO 技术 校园信息化 下一代互联网 IPv6视频课堂

中国教育网 > 教育信息化
您现在的位置: EDU首页 > 教育信息化 > 集成应用 > 基础应用 > 搜索系统
全新信息检索系统:DRIS分层检索资源
http://www.edu.cn   2011-02-28 中国教育网络 作者:江玲 王亮

字体选择:【大】 【中】 【小】

  第三层:集中式检索系统

  第三层的系统将构建一个三级域内的网页搜索引擎,如一个大学校园网的搜索引擎,其设计原理同现有的搜索引擎基本相同,差别仅在于其搜索范围较小。这里采用了集中式的设计结构,此检索系统由三个部分组成:网页下载器、索引器以及检索接口。

  1.网页下载器

  此系统的网页下载器将下载某个三级域内的所有网页。如“ www.hust.edu.cn ”是华中科技大学的域名,那么此域名下的低级域名如计算机系的域名“cs.hust.edu.cn”均可在此三级域名服务器上查到。因此相应的Spider程序只要依照DNS列表就可下载此域内的所有网页。

  系统Spider的工作是按不同的站点划分的,Spider依次访问一个域内的全部站点。当一个Spider访问某个Web服务器时,它将下载此服务器上的所有内容,当遇到指向其他服务器的链接时,也将此链接作为本站内容下载,但不再下载更深层次的链接,这些指向外部的链接相当于Spider的访问终止标记,我们将这样的链接称为“终止标志链接”。

  这一点和现有的网页搜索引擎有较大的不同——它们的Spider一般采用自由漫游的方式采集网页信息,没有一定的终止标记,系统采用多个Spider协作的方式进行网页下载,一般都要用非常复杂的算法来指导Spider漫游,以便尽可能遍历更多的网页。而在系统中只要按站点下载即可,不用考虑各站点之间的复杂链接关系。

  2.网页索引器

  索引技术的关键在于元数据的恰当选择。目前的搜索引擎一般采用全文检索,即文中每一个词汇都作为索引词,而用词频和位置信息确定索引词的重要性。我们也利用此方式进行网页的索引。而网页的标题、编码等其他信息也可作为索引项。我们也可选用一些更为复杂的技术如W 3 C 的Ontology语义模型来索引网页。

  3.检索接口

  检索接口的主要功能是处理检索结果并提供用户接口,如何进行检索结果的排序是此部分的关键所在。在这一层,我们采用基于词频统计的算法进行检索结果的排序。因为在这种情况下采集的网页仅仅限于一个很小的范围如一个大学,而超链接分析则适用于大范围的网页排序。此外,针对局域网网页集合的特点,IBM的研究院曾提出了一种名字为“rank aggregation”的局域网内网页排序方法,在提高网页检索准确率方面有一定的改进。

  第二层:元数据采集系统

  此层的检索系统将提供二级域范围的信息检索服务,元数据采集系统用来构建此层的搜索引擎。一个第三层节点如一个大学内的网页数目一般不会超过10万个,集中式系统可以很好地管理这种规模的数据。而一个第二层节点如“edu.cn”则包含了国内所有的大学,网页总数可能超过千万。如果依然采用常规的检索系统就难以保证数据库的覆盖率和更新率,所以我们采用了元数据采集方式。

  此层的搜索引擎包含两个部分:网页数据库和检索接口,该引擎没有自己的数据采集器Spider,直接从第三层的节点数据库中获得数据,如对应于“edu.cn”节点的服务器可从数千个大学中的第三层节点搜索引擎数据库中获得网页数据,而不是直接下载上百万张网页,这种方法的数据更新效率更高。而由于采集的是元数据,因此总数据量也不会过大。具体的元数据采集方法将参照OAI系统设计。

  一个值得注意的问题就是网页的重复存储问题。在第三层中,Spider下载某个站点的网页的同时也下载了一些不属于此网站的网页(终止标志链接),那么在采集整合元数据时一些网页可能出现多次。而根据第三层的下载规则,一个网页重复出现的次数就是其他站点指向此网页的链接数目,而这正是超链接分析技术中的网页排名权值。在集中式体系中,出于成本等因素考虑,不可能将位于不同位置的同一个链接全部下载再统计被引用的次数,而在分布式框架下则可用这种简单的方式实现超链接分析技术的基本思想。

  显然此层的检索接口应采用超链接分析的方式进行检索结果的排序。这里只介绍基本原理,各层之间如何协调、最终的排名算法等将在系统的标准协议中制定。

页面功能 【打印】 【关闭】 【我有话说

MOOC风暴来袭

版权所有:中国教育和科研计算机网网络中心 CERNIC,CERNET,京ICP备15006448号-16,京网文[2017]10376-1180号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com