读书人

nutch 更新url.txt没法执行新的抓取

发布时间: 2012-07-18 12:05:40 作者: rapoo

nutch 更新url.txt无法执行新的抓取

nutch在使用中经常会修改url.txt中要抓取的目标网站,但是我们在二次开发的时候经常发现url但是仍然在抓取丢的配置网站,后来发现是索引文件夹得问题,在每次从新抓取的时候切忌要删掉索引文件夹,如果不删除目前我们发现会出现两个方面的问题

1:修改url从新抓取的时候不会根据新的url抓取,依然是抓取上次配置的url

2: 有时候会在抓取的执行到最后时候创建linked包错误,具体类型记得不是太清楚,大概就是linked xxxxx已经存在

读书人网 >互联网

热点推荐