读书人

垂直搜寻用heritrix抓取网页数据时

发布时间: 2012-12-29 10:28:09 作者: rapoo

垂直搜索,用heritrix抓取网页数据时,数据过滤不彻底
我在做垂直搜索,数据来源是太平电脑网,我关心的是里面的手机信息,我定制heritrix的FrontierScheduler类,代码如下:


请帮我看看,这数据抓的正常吗?我看了里面的有些数据,感觉垃圾数据挺多的。我还刚开始弄搜索引擎,请多多指教!!
[解决办法]
顶顶~~~~~~

读书人网 >网络基础

热点推荐