基于Heritrix网络爬虫算法的研究与应用—科研发展

选择字体：大　中　小范先爽刘东飞　　中国科技论文在线　　发布时间：2010-12-03

基于Heritrix网络爬虫算法的研究与应用

　　本文首先对搜索引擎中的网络爬虫进行了介绍，详细分析了开源网络爬虫Heritrix的系统结构。在此基础上，提出了设计特定的解析器，解析特定网站网页实现定制抓取的目的。然后通过消除robots.txt文件对个别处理器的影响，以及引入ELFHash算法实现了高效、多线程抓取Web资源的目的。最后通过对改进前后的爬虫抓取网页的速度对比，以及在同等时间的情况下抓取网页个数分析，验证了改进后的爬虫性能有了较明显的提高。

>>查看原文初稿链接<<

>>更多科技论文<<

特别声明：本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者在两周内速来电或来函联系。

分享到：更多

相关资讯

更多>>新闻公告

更多>>热点推荐