heritrix 提高抓取速度
最近一直用heritrix爬取网站,? 晚上heritrix一直运行着, 但奇怪的是heritrix 抓取速度非常慢, 抓取一个网站, 用了8个多小时, 竟然没有运行完。 于是根据LOG 分析了一下慢的原因
?
?
这是heritrix3的配置, 把时间改成90秒, 也就是只等待1分半钟,
如果是H1的配置, 那可以用管理界面进行配置。
改了一下速度一下提高了很多, 原来8小时才能爬完一个网站, 现在2个小时就行了。
如果再用一下heritrix
增量抓取, 那下次再抓取这个网站时, 速度又会增加很多。这样问题解决了
?
?