做搜索引擎易,做通用爬虫难!
的确如此。就技术上实现的难度,大家觉得呢?
注意:这里搜索引擎指索引和搜索部分,不包括数据采集部分。
[解决办法]
搜索引擎难,爬虫简单。
[解决办法]
我在补充通用spider需要注意的一些地方:效率,种子调度,垃圾去除,黑洞,信息抽取,除重,编码识别
发布时间: 2012-03-18 13:55:39 作者: rapoo
做搜索引擎易,做通用爬虫难!
的确如此。就技术上实现的难度,大家觉得呢?
注意:这里搜索引擎指索引和搜索部分,不包括数据采集部分。
[解决办法]
搜索引擎难,爬虫简单。
[解决办法]
我在补充通用spider需要注意的一些地方:效率,种子调度,垃圾去除,黑洞,信息抽取,除重,编码识别