Generator部分人
1.crawlDB按照score,并且掉不需要抓取的url,依次生成多fetchlist(由topN和maxNumSegments定fetchlist的量和大小)(M/R)
2.fetchlist依次,成按urlhash排序,由此生成segments(M/R)
3.根配置,是否要更新crawldb(M/R)
可以保,只取score最高的那segment
如果是垂直搜索,是否按照下次抓取排序更好呢,我正打算麽做。
发布时间: 2012-12-26 14:39:29 作者: rapoo
Generator部分人
1.crawlDB按照score,并且掉不需要抓取的url,依次生成多fetchlist(由topN和maxNumSegments定fetchlist的量和大小)(M/R)
2.fetchlist依次,成按urlhash排序,由此生成segments(M/R)
3.根配置,是否要更新crawldb(M/R)
可以保,只取score最高的那segment
如果是垂直搜索,是否按照下次抓取排序更好呢,我正打算麽做。