读书人

Nutch有关框架视频教程5

发布时间: 2013-05-02 09:39:29 作者: rapoo

Nutch相关框架视频教程5

第五讲

土豆在线视频地址(66分钟)

超清原版下载地址
压缩高清下载地址?

1、? 域统计

bin/nutch ?domainstats ?data2/crawldb/current ?host ?host

bin/nutch ?domainstats?data2/crawldb/current ?domain domain

bin/nutch ?domainstats?data2/crawldb/current ?suffix suffix

bin/nutch ?domainstats?data2/crawldb/current ?tld ?tld

2、webgraph

bin/nutch webgraph -segmentDir data2/segments -webgraphdbdata2/webgraphdb

有相同inlinks的URL,只输出topn条

bin/nutch nodedumper -inlinks -output ?inlinks -topn 1 -webgraphdb data2/webgraphdb

有相同outlinks的URL,只输出topn条

bin/nutch nodedumper -outlinks? -output ?outlinks -topn 1 -webgraphdb data2/webgraphdb

有相同scores的URL,只输出topn条(初始分值全为0)

bin/nutch nodedumper -scores? -output scores -topn 1 -webgraphdbdata2/webgraphdb

计算URL分值

bin/nutch ?linkrank? -webgraphdb ?data2/webgraphdb

再次查看分值

bin/nutch nodedumper -scores? -output scores topn 1 -webgraphdbdata2/webgraphdb

对结果进行分组,取最大值或是连加和(topn参数不参与)

bin/nutch nodedumper -group domain sum -inlinks -outputinlinks_group_sum ?-webgraphdbdata2/webgraphdb

?

?

bin/nutch nodedumper -group domain max -inlinks -outputinlinks_group_max ?-webgraphdbdata2/webgraphdb
对url进行分组,分组方式可选择为host或是domain,对同一组的url执行topn限制,对执行了topn限制的url集合执行max或是sum操作,max和sum所针对的排序值是3种方式之一inlinks、outlinks以及scores。

读书人网 >互联网

热点推荐