蜘蛛程序如何判断重复页面

蜘蛛程序怎么判断重复页面
像百度蜘蛛那样的程序，是怎么判断抓取了重复页面的呢？比如说一个登陆页面，可能有N个页面有这个链接，该怎么判断呢？一定要判断的话“登录”页面的链接，勉强还算可以写出个判断语句来的，但要是再复杂的链接，又该怎么判断呢？？麻烦高手指点下啊！！！

[解决办法]
网络爬虫对网页而言,重在采集内容
从一个网页入口，分析链接，一层一层的遍历，或者从一组网页入口，或者从一个rss源列表开始爬rss；
获取每个页面的源码保存在磁盘或者数据库里；
遍历抓下来的网页进行处理，比如提取正文，消重等；
根据用途把处理后的文本进行索引、分类、聚类等操作

蜘蛛程序 如何判断重复页面

热点推荐

蜘蛛程序如何判断重复页面