读书人

Generator一部分人

发布时间: 2012-12-26 14:39:29 作者: rapoo

Generator部分人
1.crawlDB按照score,并且掉不需要抓取的url,依次生成多fetchlist(由topN和maxNumSegments定fetchlist的量和大小)(M/R)
2.fetchlist依次,成按urlhash排序,由此生成segments(M/R)
3.根配置,是否要更新crawldb(M/R)

可以保,只取score最高的那segment

如果是垂直搜索,是否按照下次抓取排序更好呢,我正打算麽做。

读书人网 >编程

热点推荐