基于Heritrix网络爬虫算法的研究与应用
本文首先对搜索引擎中的网络爬虫进行了介绍,详细分析了开源网络爬虫Heritrix的系统结构。在此基础上,提出了设计特定的解析器,解析特定网站网页实现定制抓取的目的。然后通过消除robots.txt文件对个别处理器的影响,以及引入ELFHash算法实现了高效、多线程抓取Web资源的目的。最后通过对改进前后的爬虫抓取网页的速度对比,以及在同等时间的情况下抓取网页个数分析,验证了改进后的爬虫性能有了较明显的提高。
版权所有:中国教育和科研计算机网网络中心 Copyright © 1994-2017 CERNIC,CERNET,京ICP备05078770号,京网文[2014]2106-306号
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@cernet.com