读书人

作搜索引擎易做通用爬虫难

发布时间: 2013-01-04 10:04:13 作者: rapoo

做搜索引擎易,做通用爬虫难!
的确如此。就技术上实现的难度,大家觉得呢?

注意:这里搜索引擎指索引和搜索部分,不包括数据采集部分。
[解决办法]
搜索引擎难,爬虫简单。
[解决办法]
我在补充通用spider需要注意的一些地方:效率,种子调度,垃圾去除,黑洞,信息抽取,除重,编码识别

读书人网 >网络基础

热点推荐