Nutch 1.0源代码分析(3): Fetch -- 2
removed for (int i = 0; i < threadCount; i++) { // spawn threads new FetcherThread(getConf()).start(); }
代看,好像抓取的候并有用到分布式任抓取
只是用在master主上行了抓取
for (int i = 0; i < threadCount; i++) { // spawn threads new FetcherThread(getConf()).start(); }
代看,好像抓取的候并有用到分布式任抓取
只是用在master主上行了抓取
不是的,请看Fetch分析的第1篇,Fetch本身是用MapReduce写的,FetchThread是Fetch中的,所以抓取网页是分布式的。每台task node又是多线程的,是这样的关系