读书人

Win7环境停配置nutch-1.2

发布时间: 2013-07-11 15:38:46 作者: rapoo

Win7环境下配置nutch-1.2


Nutch-1.2的安装测试,在cygwin窗口输入:bin/nutch。
如果出现Usage:nutch[-core] COMMAND等一串信息就表示nutch安装成功。

<!--[endif]-->

?

?

?

运行crawl爬虫命令抓取内容

运行cygwin后,
a)首先切换进入nutch-1.2的目录;
b)运行命令:export LANG="zh_CN.GBK"(设置linux环境变量)
c)运行命令:bin/nutch crawl urls -dir crawled -depth 4 -threads 3-topN 30
<!--[if !supportLineBreakNewLine]-->
Win7环境停配置nutch-1.2
?crawl是nutch检索数据命令,后面跟上要检索的URL文件; <!--[endif]-->

?

?

-dir指定抓取内容所存放的目录;

?

-depth表示以要抓取网站顶级网址为起点的爬行深度;

?

-theads指定并发的线程数

?

-topN抓取时每页的最大抓取链接。

运行结果
nutch-1.2的目录下多了个crawled目录,下面有文件如下:


?

?


?

?

?

?

读书人网 >开源软件

热点推荐