求救----Nutch抓取网页是出现的常见错误
Nutch抓取网页是出现错误:
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
按照网上的方法在url中的url.txt中再添加一个URL,但还是不行,求救。。。。。。。
[解决办法]
[解决办法]
这是你的crawl-urlfilter.txt文件里的# accept hosts in MY.DOMAIN.NAME 没配置好
比如你的url.txt里的url是http://www.163.com
那么# accept hosts in MY.DOMAIN.NAME 就应该如下:
+^http://([a-z0-9]*\.)*163.com/
[解决办法]
你没有有效的url可以抓取~~楼上说的那样~~crawl-urlfilter.txt修改过滤条件