爬虫开发 学习笔记
从[待处理队列]中得到一个URL -> get网页源码 -> 格式化源码-> 提取符合的URL并填入[待处理队列]->提取数据项->存入数据库
第一部分:多线程抓取页面到本地,第二部分多线程分析页面
思考如何充分利用网络带宽和磁盘性能,用正则来抓取数据项
可以参考Apatch Nutch, Heritrix
发布时间: 2012-11-09 10:18:47 作者: rapoo
爬虫开发 学习笔记
从[待处理队列]中得到一个URL -> get网页源码 -> 格式化源码-> 提取符合的URL并填入[待处理队列]->提取数据项->存入数据库
第一部分:多线程抓取页面到本地,第二部分多线程分析页面
思考如何充分利用网络带宽和磁盘性能,用正则来抓取数据项
可以参考Apatch Nutch, Heritrix