中国教育和科研计算机网
EDU首页 | 中国教育 | 高校科技 | 教育信息化 |  CERNET |  公开课导航
首页  |  科技前沿  |  科普知识  |  评论  |  人才  |  高校成果  |  高校资讯  |  会议通知  |  专题报道  |  数据排行  |  每日要闻  |  每日全部资讯

CERNET第24届学术年会
选择字体:    范先爽 刘东飞  中国科技论文在线  发布时间:2010-12-03

基于Heritrix网络爬虫算法的研究与应用

  本文首先对搜索引擎中的网络爬虫进行了介绍,详细分析了开源网络爬虫Heritrix的系统结构。在此基础上,提出了设计特定的解析器,解析特定网站网页实现定制抓取的目的。然后通过消除robots.txt文件对个别处理器的影响,以及引入ELFHash算法实现了高效、多线程抓取Web资源的目的。最后通过对改进前后的爬虫抓取网页的速度对比,以及在同等时间的情况下抓取网页个数分析,验证了改进后的爬虫性能有了较明显的提高。

>>查看原文初稿链接<<

>>更多科技论文<<

特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。
分享到 更多

版权所有:中国教育和科研计算机网网络中心 Copyright © 1994-2017 CERNIC,CERNET,京ICP备05078770号,京网文[2014]2106-306号

关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@cernet.com