读书人

pagerank算法是在爬虫爬完后计算还是

发布时间: 2012-05-05 17:21:10 作者: rapoo

pagerank算法是在爬虫爬完后计算,还是边爬边算呢
pagerank的具体意义呢?就是用于网页排序吗?爬虫需不需要这个功能呢?
现在做的一个爬虫,数据量较小,可以通过限制爬的层数快速爬完,也可以在内存中进行计算。
是不是爬完后生成一个图,根据出度入度来算呢?
看有些文章是根据pagerank过滤掉链接,直接不爬那些pr值低的网页,可是没爬完图都没有成型呀,怎么过滤呢。不能理解。
初学爬虫,很多概念不懂,请大家指教。

[解决办法]
PR是每隔一段时间有专门的进程,机器来计算,间隔时间可能从几天到几个月,和网络爬虫没关系
[解决办法]
PR是每隔一段时间有专门的进程,机器来计算,间隔时间可能从几天到几个月,和网络爬虫没关系

读书人网 >C++

热点推荐